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^Jesta ediqao atendemos a solicitaqao de leitores que sugeriram modifica- 
90 CS em alguns topicos considerados diffceis. Por exemplo, o topico sobre quantis 
empfricos agora traz o calculo utilizando o histograma, deixando a definiqao mais 
geral para a seqao de Problemas e Complementos. 

Inumeras correqoes foram feitas na ediqao anterior, a medida que as sucessivas 
tiragens foram editadas. Nesta sexta edi 9 ao outros erros foram corrigidos, mas sabe- 
mos que diversos persistirao! Agradecemos aos diversos leitores que nos enviaram 
correqoes e sugestoes. 

Acrescentamos problemas a diversas seqoes do livro e substitufmos o conjunto 
de dados sobre o Brasil (CD-Brasil) com informaqoes atualizadas da Contagem da 
Populaqao 2007 feita pelo IBGE. Os dados tambem estao disponfveis na pagina 
http://www.ime.usp.br/~pam. 

Os leitores que desejarem contatar os autores poderao usar os endereqos ele- 
tronicos: morettin@editorasaraiva.com.br e bussab@editorasaraiva.com.br. 
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QUINTA EDICAO 


E sta edigao e uma revisao substancial da edigao anterior deste livro. Cinco novos 
capftulos foram adicionados, e os demais foram revisados e atualizados. 

Cremos que este texto, com a escolha adequada dos topicos, possa ser utilizado por 
alunos de diversas areas do conhecimento. 0 Site do Professor, disponi vel na Internet 
(http://www.saraivauni.com.br), fornece uma discussao mais longa sobre roteiros apro- 
priados para cursos de diferentes nfveis. 

Com essa filosofia em mente, procuramos incluir no texto uma quantidade de 
informagao substancial em cada capftulo. Obviamente cabera ao professor escolher 
o material apropriado para cada curso desenvolvido. 

0 livro edividido em tres partes. A primeiratrata da analisededados unidimensionais 
ebidimensionais, com atengao especial a metodosgraficos. Pensamosquea leituradessa 
parte e essencial para o bom entendimento das demais. Recomendamos que o aluno tra- 
balhecom dados reais, embora isso nao seja uma necessidade essencial, pois normal men¬ 
te urn primeiro curso de estatistica e dado no inicio do programa do aluno, que nao possui 
ainda urn conhecimento solido dos problemas de sua area. A segunda parte trata dos 
conceitos basicos de probabiIidades e variaveis aleatorias. Finalmente, na terceira parte, 
estudamos os topicos principals da inferencia estatistica, alem de alguns temas especiais, 
como regressao linear simples. U m capftulo sobre nogoes de simulagao foi adicionado, 
pois tais nogoes sao hoje fundamentals em muitas areas. 

0 usodealgum pacotecomputacional efortementerecomendado paraapraticados 
conceitos desenvolvidos. A presentamos exemplos de aplicagoes utilizando alguns desses 
pacotes: M initab, Excel eSPIus. M as, evidentemente, outros pacotes poderao serusados. 

No final do livro, apresentamos varios conjuntos de dados que poderao ser utiliza- 
dos pelos alunos. Esses dados tambem estao disponiveis nas seguintes paginas da I nternet: 

http://www.ime.usp.br/~pam 

http://www.saraivauni.com.br 

F inal mente, agradecemos a todos aqueles que enviarem sugestoes e comentarios com 
a finalidade de melhorar a presente edigao. Para tanto, alem do correio normal, os leitores 
poderao usar os enderegos eletronicos dos autores: morettin@editorasaraiva.com.br e 
bussab@editorasaraiva.com.br. 


Os Autores 
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Capitulo 1 


Preliminares 


1.1 Introducao 

Em alguma fase de seu trabalho, o pesquisador depara-se com o problema de anali- 
sar e entender urn conjunto de dados relevante ao seu particular objeto de estudos. Ele 
necessitara trabalhar os dados para transforma-los em informagoes, para compara-los 
com outros resultados, ou ainda para julgar sua adequagao a alguma teoria. 

De modo bem geral, podemos dizer que a essencia da Ciencia e a observagao e que seu 
objetivo basico e a inferencia, que pode ser dedutiva (na qual se argumenta das premissas as 
conclusoes) ou indutiva (por meio da qual se vai do especifico ao geral). _ 

A inferencia estatistica e uma das partes da Estatistica. Esta e a parte da metodologia da 
Ciencia que tern por objetivo a col eta, redugao, analise e model agem dos dados, a parti r do 
que, finalmente, faz-se a inferencia para uma populagao da qual os dados (a amostra) foram 
obtidos. Urn aspecto importante da modelagem dos dados e fazer previsoes, a partir das 
auais se podem tomar decisoes. _ 

Na primeira partedeste livro estaremos interessados na redugao, analise e interpretagao 
dos dados sob consideragao, adotando urn enfoque que chamaremos de analise 
exploratoria de dados (AED). Nessa abordagem tentaremos obter dos dados a maior 
quantidade possfvel de informagao, que indique modelos plausfveis a serem utilizados 
numa fase posterior, a analise confirmatoria de dados (ou inferencia estatistica). 

Tradicionalmente, uma analise descritiva de dados limita-se a calcular algumas 
medidas de posigao e variabilidade, como a media e variancia, por exemplo. Contraria 
a essa tendencia, uma corrente mais moderna, liderada por Tukey (1977), utiliza prin- 
cipalmente tecnicas graficas, em oposigao a resumos numericos. Isso nao significa 
que sumarios nao devam ser obtidos, mas uma analise exploratoria de dados nao deve 
se limitar a calcular tais medidas. 

1.2 Modelos 

Fundamentalmente, quando se procede a uma analise de dados, busca-se alguma 
forma de regularidade ou padrao ou, ainda, modelo, presente nas observagoes. 
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CAPITULO 1 — PRELIMINARES 


Exemplo 1.1. Imagine que estejamos estudando a relagao entre rendimentos e gastos 
de consumo de um conjunto de indivfduos. Podemos obter um grafico como o da 
Figura 1.1. 0 que se espera, intuitivamente, e que os gastos de um individuo estejam 
diretamente relacionados com os seus rendimentos, de modo que e razoavel supor 
uma "relagao linear" entre essas duas quantidades. Os pontos da Figura 1.1 nao estao 
todos, evidentemente, sobre uma reta; essa seria o nosso padrao ou modelo. A diferen- 
ga entre os dados e o modelo constitui os residuos. 


Figura 1.1 Relagao entre consumo e rendimento. 



Podemos, entao, escrever de modo esquematico: 

Dados = Modelo + Residuos 


ou, ainda, 


D = M + R. (1.1) 

A parte M e tambem chamada parte suave (ou regular ou, ainda, previsfvel) dos 
dados, enquanto Rea parte aleatoria. A parte R e tao importante quanto M, e a analise 
dos residuos constitui uma parte fundamental de todo trabalho estatfstico. Basicamen- 
te, sao os residuos que nos dizem se o modelo e adequado ou nao para representar os 
dados. De modo coloquial, o que se deseja e que a parte R nao contenha nenhuma 
"suavidade", caso contrario mais "suavizagao" e necessaria. 

Uma analise exploratoria de dados busca, essencialmente, fornecer informagoes 
para estabelecer (1.1). 

1.3 Tecnicas Computacionais 

0 desenvolvimento rapido e constante na area de computagao foi acompanhado pela 
introdugao de novas tecnicas de analise de dados, notadamente de metodos graficos e de 
metodos chamados de computagao intensiva (como o metodo bootstrap, que sera tratado 
brevemente neste livro). 












1.4 METODOS GRAFICOS 
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Para a implementagao dessas tecnicas, foram desenvolvidos pacotes estatfsticos, atual- 
mente usados em larga escala tanto no meio academico como em industrias, bancos, orgaos 
de governo etc. Esses pacotes podem ser genericos ou especfficos. Os pacotes genericos 
(como o Minitab, Splus, SPSS, SAS etc.) sao adequados para realizar uma gama variada 
de analises estatisticas. Os pacotes especfficos sao planejados para realizar analises particu- 
lares de uma determinada area. 

Por outro lado, os pacotes podem exigir maior ou menor experience computacional 
dos usuarios. Alguns operam com menus, e seu uso e mais simples. Outros requerem 
maior familiaridade com o computador e sao baseados em linguagens proprias. 

Do ponto de vista de sistema operacional, a maioria dos pacotes e programada para 
uso em microcomputadores que operam com o sistema Windows. Todavia, urn numero 
razoavel de pacotes ja tern versoes para o sistema Linux. 

Em alguns exemplos deste livro usaremos alguns pacotes e, em cada caso, explicitaremos 
qual esta sendo usado. Nao queremos fazer recomendagoes sobre nenhum pacote em parti¬ 
cular, porque cremos que o leitor utilizara aquele com o qual estiver mais acostumado, ou 
aquele(s) que estiver(em) a sua disposigao. 

Listamos, na Tabela 1.1, alguns pacotes genericos utilizados na area de Estatfstica. 
Salientamos, tambem, que existem planilhas a venda no mercado que possuem op- 
goes para certas tecnicas estatisticas. Dentre estas, mencionamos o Excel e o Lotus. 


Tabela 1.1: Alguns pacotes estatisticos genericos. 


Pacote 

Ambiente 

Fabricante 

MINITAB 

WIN 

Minitab, Inc., USA 

SAS 

WIN 

SAS Institute, Inc., USA 

SPLUS 

WIN, LINUX 

Insightfull Inc. 

SPSS 

WIN 

SPSS, Inc., USA 

STATGRAPHICS 

WIN 

Stat. Graphics, Inc., USA 


Alem dos pacotes estatfsticos, ha outros pacotes de grande utilidade para realizar tarefas 
matematicas. Dentre estes, mencionamos o Mathematica, o Maple, o Gauss e o Mat Lab. 

1.4 Metodos Graficos 

Como dissemos na introdugao, os metodos graficos tern encontrado urn uso cada 
vez maior devido ao seu forte apelo visual. Normalmente, e mais facil para qualquer 
pessoa entender a mensagem de urn grafico do que aquela embutida em tabelas ou 
sumarios numericos. 

Os graficos sao utilizados para diversos fins (Chambers et al., 1983): 

(a) buscar padroes e relagoes; 

(b) confirmar (ou nao) certas expectativas que se tinha sobre os dados; 
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(c) descobrir novos fenomenos; 

(d) confirmar (ou nao) suposigoes feitas sobre os procedimentos estatfsticos usados; e 

(e) apresentar resultados de modo mais rapido e facil. 

Podemos usar metodos graficos para plotar os dados originais ou outros dados deriva- 
dos deles. Por exemplo, a investigagao da relagao entre as variaveis da Figura 1.1 pode ser 
feita por meio daquele diagrama de dispersao. M as podemos tambem "ajustar" uma reta aos 
dados, calcular o desvio (resfduo) para cada observagao e fazer um novo grafico, de consu- 
mo contra resfduos, para avaliar a qualidade do ajuste. 

Com o progresso recente da computagao grafica e a existencia de hardware e 
software adequados, a utilizagao de metodos graficos torna-se rotineira na analise 
de dados. Contudo, muitos graficos podem ser feitos sem o recurso de programas de 
computador. 

Neste texto introduziremos graficos para a visualizagao e resumo de dados, no 
caso de uma ou duas variaveis, principalmente. Nogoes para o caso de tres ou mais 
variaveis serao rapidamente abordadas. Graficos com o proposito de comparar duas 
distribuigoes tambem serao tratados. 

1.5 Conjuntos de Dados 

No final do livro aparecem alguns conjuntos de dados que serao utilizados nos exemplos 
ou nos exercicios propostos. Aconselhamos os leitores a reproduzir os exemplos, usan- 
do esses dados, bem como resolver os problemas, pois somente a efetiva manipulagao de 
dados pode levar a um bom entendimento das tecnicas apresentadas. 

Os conjuntos de dados apresentados provem de diferentes fontes, que sao mencio- 
nadas em cada conjunto e depois explicitadas nas references. 

Os leitores, e claro, poderao usar as tecnicas apresentadas em seus proprios con¬ 
juntos de dados. 

Como salientamos na segao 1.3, usaremos alguns programas computacionais dis- 
ponfveis para analises estatfsticas. Decidimos pela utilizagao de dois pacotes, o SPIus 
e o M initab, e de uma planilha, o Excel. Embora o ultimo nao possa ser considerado 
um aplicativo estatistico, sua grande difusao entre os usuarios de computadores pessoais 
motivou nossa escolha. 

Alguns conjuntos de dados sao parte de conjuntos maiores. Todos esses dados 
podem ser obtidos no enderego: 

http://www.editorasaraiva.com.br/uni 

Usaremos um nome curto para identificar cada conjunto de dados. Por exemplo, o 
Conjunto de Dados 1 sera designado simplesmente por CD-Brasil, o Conjunto de Da¬ 
dos 4, por CD-Poluigao etc. 
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1.6 Plano do Livro 

Na primeira parte do livro trataremos, nos Capftulos 2 a 4, de tecnicas graficas e 
numericas que nos permitirao fazer uma primeira analise dos dados disponfveis. No 
Capftulo 2 estudaremos como resumir os dados por meio de distribuigoes de freqiien- 
cias e como representa-los graficamente por meio de graficos em barras, histogramas 
e ramo-e-folhas. No Capftulo 3 veremos as principals medidas numericas resumidoras 
de urn conjunto de dados: medidas de posigao (ou localizagao) e medidas de dispersao 
(ou de variabilidade). A partir dessas medidas poderemos construir graficos importantes, 
como o grafico de quantis e o desenho esquematico (ou box plot). No Capftulo 4 
trataremos do caso em que temos duas variaveis. Estaremos interessados em verificar 
se existe alguma associagao entre duas variaveis e como medi-la. 0 caso de tres varia¬ 
veis sera considerado brevemente. 

Na segunda parte introduzimos os conceitos basicos sobre probabilidades e variaveis 
aleatorias. A ideia e que a primeira parte sirva de motivagao para construir os modelos 
probabiIfsticos da segunda parte. No Capftulo 5 tratamos da nogao de probabilidade, suas 
propriedades, probabilidade condicional e independence Tambem consideramos o teorema 
de Bayes e destacamos sua importance em problemas de inference As variaveis aleatorias 
discretas sao estudadas no Capftulo 6 e as contfnuas, no Capftulo 7. Em particular, sao intro- 
duzidos os principals modelos para variaveis aleatorias. 0 caso de duas variaveis aleatorias e 
considerado no Capftulo 8. 

No Capftulo 9 introduzimos nogoes basicas de simulagao. Esse assunto e muito impor- 
tante, notadamente quando se quer avaliar algum modelo construfdo para uma situagao real. 

A terceira parte trata da inferencia estatfstica. Nesta parte todos os conceitos apreen- 
didos nas duas partes anteriores sao imprescindfveis. Os dois grandes problemas de 
inferencia, estimagao e teste de hipoteses sao estudados nos Capftulos 11 e 12 respectiva- 
mente, apos serem introduzidas no Capftulo 10 as nogoes basicas de amostragem e distri¬ 
buigoes amostrais. 0 caso de duas populagoes e considerado no Capftulo 13 e de varias 
populagoes no Capftulo 15. Basicamente, sao desenvolvidos testes para medias, propor- 
goes e variances. 0 Capftulo 14 trata dos chamados testes do qui-quadrado para dados 
que aparecem sob a forma de tabelas de contingencia. Finalmente, no Capftulo 16 estuda- 
mos com algum detalhe o modelo de regressao linear simples. 

Em cada capftulo ha, sempre que possfvel, uma segao com exemplos computacionais. 
Isso significa que algum conjunto de dados e analisado utilizando-se urn ou alguns dos 
programas mencionados acima. Em geral, sao problemas urn pouco mais diffceis do que 
aqueles exemplificados nas demais segoes ou, entao, tern o carater de ilustrar o uso de tais 
pacotes para simulagoes, por exemplo. Recomendamos que o leitor tente reproduzir esses 
exemplos para adquirir experience na manipulagao de dados e procura de eventuais mode¬ 
los que possam representa-los. 
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Capitulo 2 


Resumo de Dados 


2.1 Tipos de Variaveis 

Para ilustrar o que segue, consideremos o seguinte exemplo. 

Exemplo 2.1, Um pesquisador esta interessado em fazer um levantamento sobre alguns 
aspectos socioeconomicos dos empregados da segao de orgamentos da Companhia M B. 
Usando informagoes obtidas do departamento pessoal, ele elaborou a Tabela 2.1. 

De modo geral, para cada elemento investigado numa pesquisa, tem-se associado 
um (ou mais de um) resultado correspondendo a realizagao de uma caracteristica (ou 
caracterfsticas). No exemplo em questao, considerando-se a caracteristi ca (variavel) 
estado civil, para cada empregado pode-se associar uma das realizagoes, solteiro ou 
casado (note que poderia haver outras possibilidades, como separado, divorciado, 
mas somente as duas mencionadas foram consideradas no estudo). Podemos atribuir 
uma letra, digamos X, para representar tal variavel. Observamos que o pesquisador 
colheu informagoes sobre seis variaveis: 


Variavel 

Representapao 

Estado civil 

X 

Grau de instrucao 

Y 

Numero de filhos 

Z 

Salario 

S 

Idade 

U 

Regiao de procedencia 

V 

Algumas variaveis, como sexo, educagao, estado civil, apresentam como possfveis rea- 
1 izagoes uma qualidade (ou atributo) do individuo pesquisado, ao passo que outras, como 
numero de filhos, salario, idade, apresentam como possfveis realizagoes numeros resultan- 
tes de uma contagem ou mensuragao. As variaveis do primeiro tipo sao chamadas qualitati- 

vas, e as do segundo tipo, quantitativas. 
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Dentre as variaveis qualitativas, ainda podemos fazer uma distingao entre dois 
tipos: variavel qualitativa nominal, para a qual nao existe nenhuma ordenagao nas 
possfveis realizagoes, e variavel qualitativa ordinal, para a qual existe uma ordem 
nos seus resultados. A regiao de procedencia, do Exemplo 2.1, e urn caso de variavel 
nominal, enquanto grau de instrugao e urn Exemplo de variavel ordinal, pois ensinos 
fundamental, medio e superior correspondem a uma ordenagao baseada no numero de 
anos de escolaridade completos. A variavel qualitativa classe social, com as possfveis 
realizagoes alta, media e baixa, e outro exemplo de variavel ordinal. 

De modo analogo, as variaveis quantitativas podem sofrer uma classificagao dicotomi- 
ca: (a) variaveis quantitativas discretas, cujos possfveis valores formam urn conjunto finito 
ou enumeravel de numeros, e que resultam, frequentemente, de uma contagem, como por 
exemplo numero de filhos (0, 1, 2, ...); (b) variaveis quantitativas contfnuas, cujos possfveis 
valores pertencem a urn intervalo de numeros reais e que resultam de uma mensuragao, 
como por exemplo estatura e peso (melhor seria dizer massa) de urn indivfduo. 

A Figura 2.1 esquematiza as classificagoes feitas acima. 


Figura 2.1 Classificagao de uma variavel. 



Para cada tipo de variavel existem tecnicas apropriadas para resumir as informagoes, 
donde a vantagem de usar uma tipologia de identificagao como a da Figura 2.1. Entre- 
tanto, verificaremos que tecnicas usadas num caso podem ser adaptadas para outros. 

Para finalizar, cabe uma observagao sobre variaveis qualitativas. Em algumas situa- 
goes podem-se atribuir valores numericos as varias qualidades ou atributos (ou, ain¬ 
da, classes) de uma variavel qualitativa e depois proceder-se a analise como se esta 
fosse quantitativa, desde que o procedimento seja passfvel de interpretagao. 

Existe urn tipo de variavel qualitativa para a qual essa quantificagao e muito util: a 
chamada variavel dicotomica. Para essa variavel so podem ocorrer duas real izagoes, 
usualmente chamadas sucesso e fracasso. A variavel estado civil no exemplo acima 
estaria nessa situagao. Esse tipo de variavel aparecera mais vezes nos proximos capftulos. 
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2.2 DISTRIBUTES DE FREQUENCIAS 


Tabela 2.1: Informapoes sobre estado civil, grau de instrupao, numero de filhos, salario (expresso 
como frapao do salario minimo), idade (medida em anos e meses) e procedencia de 36 
empregados da sepao de orpamentos da Companhia MB. 


N° 

Estado 

civil 

Grau de 
instrucao 

N e de 
filhos 

Salario 
(x sal. min.) 

Idade 

Regiao de 
procedencia 

anos 

meses 

1 

solteiro 

ensino fundamental 

— 

4,00 

26 

03 

interior 

2 

casado 

ensino fundamental 

1 

4,56 

32 

10 

capital 

3 

casado 

ensino fundamental 

2 

5,25 

36 

05 

capital 

4 

solteiro 

ensino medio 

— 

5,73 

20 

10 

outra 

5 

solteiro 

ensino fundamental 

— 

6,26 

40 

07 

outra 

6 

casado 

ensino fundamental 

0 

6,66 

28 

00 

interior 

7 

solteiro 

ensino fundamental 

— 

6,86 

41 

00 

interior 

8 

solteiro 

ensino fundamental 

— 

7,39 

43 

04 

capital 

9 

casado 

ensino medio 

1 

7,59 

34 

10 

capital 

10 

solteiro 

ensino medio 

— 

7,44 

23 

06 

outra 

11 

casado 

ensino medio 

2 

8,12 

33 

06 

interior 

12 

solteiro 

ensino fundamental 

— 

8,46 

27 

11 

capital 

13 

solteiro 

ensino medio 

— 

8,74 

37 

05 

outra 

14 

casado 

ensino fundamental 

3 

8,95 

44 

02 

outra 

15 

casado 

ensino medio 

0 

9,13 

30 

05 

interior 

16 

solteiro 

ensino medio 

— 

9,35 

38 

08 

outra 

17 

casado 

ensino medio 

1 

9,77 

31 

07 

capital 

18 

casado 

ensino fundamental 

2 

9,80 

39 

07 

outra 

19 

solteiro 

superior 

- 

10,53 

25 

08 

interior 

20 

solteiro 

ensino medio 

— 

10,76 

37 

04 

interior 

21 

casado 

ensino medio 

1 

11,06 

30 

09 

outra 

22 

solteiro 

ensino medio 

— 

11,59 

34 

02 

capital 

23 

solteiro 

ensino fundamental 

— 

12,00 

41 

00 

outra 

24 

casado 

superior 

0 

12,79 

26 

01 

outra 

25 

casado 

ensino medio 

2 

13,23 

32 

05 

interior 

26 

casado 

ensino medio 

2 

13,60 

35 

00 

outra 

27 

solteiro 

ensino fundamental 

— 

13,85 

46 

07 

outra 

28 

casado 

ensino medio 

0 

14,69 

29 

08 

interior 

29 

casado 

ensino medio 

5 

14,71 

40 

06 

interior 

30 

casado 

ensino medio 

2 

15,99 

35 

10 

capital 

31 

solteiro 

superior 

— 

16,22 

31 

05 

outra 

32 

casado 

ensino medio 

1 

16,61 

36 

04 

interior 

33 

casado 

superior 

3 

17,26 

43 

07 

capital 

34 

solteiro 

superior 

— 

18,75 

33 

07 

capital 

35 

casado 

ensino medio 

2 

19,40 

48 

11 

capital 

36 

casado 

superior 

3 

23,30 

42 

02 

interior 


Fonte: Dados hipoteticos. 


2.2 Distribuicoes de Frequencias 

Quando se estuda uma variavel, o maior interesse do pesquisador e conhecer o compor- 
tamento dessa variavel, analisando a ocorrencia de suas possfveis realizagoes. Nesta segao 
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veremos uma maneira de se dispor um conjunto de realizagoes, para se ter uma ideia global 
sobre elas, ou seja, de sua distribuigao. 

Exemplo 2.2. A Tabela 2.2 apresenta a distribuigao de frequencias da variavel grau de 
instrugao, usando os dados da Tabela 2.1. 


Tabela 2.2: Frequencias e porcentagens dos 36 emprega- 
dos da sepao de orpamentos da Companhia 
MB segundo o grau de instrupao. 


Grau de 
instrupao 

Frequencia 

n i 

Proporpao 

f 

Porcentaqem 
100 f, 

Fundamental 

12 

0,3333 

33,33 

Medio 

18 

0,5000 

50,00 

Superior 

6 

0,1667 

16,67 

Total 

36 

1,0000 

100,00 


Fonte: Tabela 2.1 


Observando os resultados da segunda coluna, ve-se que dos 36 empregados da com¬ 
panhia, 12 tern o ensino fundamental, 18 o ensino medio e 6 possuem curso superior. 

Uma medida bastante util na interpretagao de tabelas de frequencias e a proporgao de 
cada realizagao em relagao ao total. Assim, 6/36 = 0,1667 dos empregados da companhia 
MB (segao de orgamentos) tern instrugao superior. Na ultima coluna da Tabela 2.2 sao 
apresentadas as porcentagens para cada realizagao da variavel grau de instrugao. Usaremos 
a notagao n para indicar a frequencia (absoluta) de cada classe, ou categoria, da variavel, e a 
notagao f = n/n para indicar a proporgao (ou frequencia relativa) de cada classe, sendo n 
o numero total de observagoes. As proporgoes sao muito uteis quando se quer comparar 
resultados de duas pesquisas distintas. Por exemplo, suponhamos que se queira comparar a 
variavel grau de instrugao para empregados da segao de orgamentos com a mesma variavel 
para todos os empregados da Companhia MB. Digamos que a empresa tenha 2.000 empre¬ 
gados e que a distribuigao de frequencias seja a da Tabela 2.3. 


Tabela 2.3: Frequencias e porcentagens dos 2.000 
empregados da Companhia MB, segundo o 
grau de instrupao. 


Grau de instrupao 

Frequencia 

n : 

Porcentaqem 
100 f. 

Fundamental 

650 

32,50 

Medio 

1.020 

51,00 

Superior 

330 

16,50 

Total 

2.000 

100,00 


Fonte: Dados hipoteticos. 
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Nao podemos comparar diretamente as colunas das frequences das Tabelas 2.2 e 2.3, 
pois os totais de empregados sao diferentes nos dois casos. M as as colunas das porcenta- 
gens sao comparaveis, pois reduzimos as frequencias a um mesmo total (no caso 100). 

A construgao de tabelas de frequencias para variaveis contfnuas necessita de certo 
cuidado. Por exemplo, a construgao da tabela de frequencias para a variavel salario, 
usando o mesmo procedimento acima, nao resumira as 36 observagoes num grupo 
menor, pois nao existem observagoes iguais. A solugao empregada e agrupar os dados 
por faixas de salario. 

Exemplo 2.3. A Tabela 2.4 da a distribuigao de frequencias dos salarios dos 36 empregados 
da segao de orgamentos da Companhia M B por faixa de salarios. 


Tabela 2.4: Frequencias e porcentagens dos 36 empre¬ 
gados da sepao de orcamentos da Compa¬ 
nhia MB por faixa de salario. 


Classe de salarios 

Frequencia 

n i 

Porcentaqem 
100 f, 

4,00 h- 8,00 

10 

27,78 

8,001- 12,00 

12 

33,33 

12,001- 16,00 

8 

22,22 

16,001-20,00 

5 

13,89 

20,001-24,00 

1 

2,78 

Total 

36 

100,00 


Fonte: Tabela 2.1. 


Procedendo-se desse modo, ao resumir os dados referentes a uma variavel contfnua, 
perde-se alguma informagao. Por exemplo, nao sabemos quais sao os oito salarios da 
classe de 12 a 16, a nao ser que investiguemos a tabela original (Tabela 2.1). Sem 
perda de muita precisao, poderfamos supor que todos os oito salarios daquela classe 
fossem iguais ao ponto medio da referida classe, isto e, 14 (o leitor pode verificar qual 
o erro cometido, comparando-os com os dados originais da Tabela 2.1). Voltaremos a 
este assunto no Capftulo 3. Note que estamos usando a notagao a I- b para o intervalo 
de numeros contendo o extremo a mas nao contendo o extremo b. Podemos tambem 
usar a notagao [a, b) para designar o mesmo intervalo a l- b. 

A escolha dos intervalos e arbitraria e a familiaridade do pesquisador com os dados e 
que Ihe indicara quantas e quais classes (intervalos) devem ser usadas. Entretanto, 
deve-se observar que, com um pequeno numero de classes, perde-se informagao, e com 
um numero grande de classes, o objetivo de resumir os dados fica prejudicado. Estes dois 
extremos tern a ver, tambem, com o grau de suavidade da representagao grafica dos dados, 
a ser tratada a seguir, baseada nestas tabelas. Normalmente, sugere-se o uso de 5 a 15 
classes com a mesma amplitude. 0 caso de classes com amplitudes diferentes e tratado no 
Problema 10. 
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1. Escalas de medidas. Aseguir descrevemos outros possfveis criterios para classificar varia- 
veis, em fungao da escala adotada. Observe a similaridade com a classificagao apresen- 
tada anteriormente. Nossas observagoes sao resultados de medidas feitas sobre os elementos 
de uma populagao. Existem quatro escalas de medidas que podem ser consideradas: 

Escala nominal. Nesta escala somente podemos afirmar que uma medida e diferente ou 
nao de outra, e ela e usada para categorizar individuos de uma populagao. Urn exemplo e 
o sexo de um indivfduo. Para cada categoria associamos um numeral diferente (letra ou 
numero). Por exemplo, no caso de sexo: podemos associar as letras M (masculino) e F 
(feminino) ou 1 (masculino) e 2 (feminino). Nao podemos realizar operagoes aritmeticas 
aqui e uma medida de posigao apropriada e a moda. (As medidas citadas nesse problema, 
como a media, mediana e moda, sao definidas no Capitulo 3.) 

Escala ordinal. Aqui podemos dizer que uma medida e diferente e maior do que outra. 
Temos a situagao anterior, mas as categorias sao ordenadas, e a ordem dos numerais 
associados ordena as categorias. Por exemplo, a classe socioeconomica de um indivfduo 
pode ser baixa (l ou X), media (2 ou Y) e alta (3 ou Z). Transformagoes que preservam a 
ordem nao alteram a estrutura de uma escala ordinal. No exemplo acima, podemos 
representor as categorias por 1,10 e 100 ou A, L e Z. Medidas de posigao apropriadas 
sao a mediana e a moda. 

Escala intervalar. Nesta escala podemos afirmar que uma medida e igual ou diferente, 
maior e quanto maior do que outra. Podemos quantificar a diferenga entre as categorias 
da escala ordinal. Necessitamos de uma origem arbitraria e de uma unidade de medida. 
Por exemplo, considere a temperatura de um indivfduo, na escala Fahrenheit. A origem e 
0° F e a unidade e 1° F . Transformagoes que preservam a estrutura dessa escala sao do 
tipo y = ax + b, a > 0. Por exemplo, a transformagao y = 5/9 (x - 32) transforma graus 
Fahrenheit em centfgrados. Para essa escala, podemos fazer operagoes aritmeticas, e me¬ 
dia, mediana e moda sao medidas de posigao apropriadas. 

Escala razao. Dadas duas medidas nessa escala, podemos dizer se sao iguais, ou se 
uma e diferente, maior, quanto maior e quantas vezes a outra. A diferenga com a escala 
intervalar e que agora existe um zero absoluto. A altura de um indivfduo e um exemplo de 
medida nessa escala. Se ela for medida em centimetres (cm), 0 cm e a origem elcmea 
unidade de medida. Um indivfduo com 190 cm e duas vezes mais alto do que um indivfduo 
com 95 cm, e esta relagao continua a valer se usarmos 1 m como unidade. 
Ou seja, a estrutura da escala razao nao e alterada por transformagoes da forma y =CX, 
c >0. Por exemplo, y = x/100 transforma cm em m. As estatfsticas apropriadas para a 

escala intervalar sao tambem apropriadas para a escala razao. _ 

Para cada uma das variaveis abaixo, indique a escala usualmente adotada para resu- 
mir os dados em tabelas de frequencies: 

(a) Salarios dos empregados de uma industria. 

(b) Opiniao de consumidores sobre determinado produto. 

(c) Numero de respostas certas de alunos num teste com dez itens. 

(d) Temperatura diaria da cidade de Manaus. 

(e) Porcentagem da receita de munidpios aplicada em educagao. 

(f) Opiniao dos empregados da Companhia MB sobre a realizagao ou nao de cursos 
obrigatorios detreinamento. 

(g) Ql de um indivfduo. 
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2. Usando os dados da Tabela 2.1, construa a distribuigao de frequencies das variaveis: 

(a) Estado civil. 

(b) Regiao de procedencia. 

(c) Numero de filhos dos empregados casados. 

(d) Idade. 

3. Para o Conjunto de Dados 1 (CD-Brasil), construa a distribuigao de frequencies para as 
variaveis populagao urbana e densidade populacional. 


2.3 Graficos 

Como ja salientamos no Capitulo 1, a representagao grafica da distribuigao de uma 
variavel tem a vantagem de, rapida econcisamente, informarsobre sua variabilidade. Exis- 
tem varios graficos que podem ser utilizados e abordaremos aqui os mais simples para 
variaveis quantitativas. No Capitulo 3, voltaremos a tratar deste assunto, em conexao com 
medidas associadas a distribuigao de uma variavel. 

2.3.1 Graficos para Variaveis Qualitativas 

Existem varios tipos de graficos para representar variaveis qualitativas. Varios sao 
versoes diferentes do mesmo principio, logo nos limitaremos a apresentar dois deles: 
graficos em barras e de composigao em setores ("pizza" ou retangulos). 

Exemplo 2.4 Tomemos como iIustragao a variavel Y: grau de instrugao, exemplificada 
nas Tabelas 2.2 e 2.3. 0 grafico em barras consiste em construir retangulos ou barras, 
em que uma das dimensoes e proporcional a magnitude a ser representada (n. ou f), 
sendo a outra arbitraria, porem igual para todas as barras. Essas barras sao dispostas 
paralelamente umas as outras, horizontal ou verticalmente. Na Figura 2.2 temos o 
grafico em barras (verticals) para a variavel Y. 


Figura 2.2: Grafico em barras para a variavel Y: grau de instrugao. 
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Ja o grafico de composigao em setores, sendo em forma de "pizza" o mais conhecido, 
destina-se a representar a composigao, usualmente em porcentagem, de partes de urn todo. 
Consiste num circulo de raio arbitrario, representando o todo, dividido em setores, que 
correspondem as partes de maneira proporcional. A Figura 2.3 mostra esse tipo de grafico 
para a variavel Y. M uitas vezes e usado urn retangulo no lugar do circulo, para indicar o todo. 


Figura 2.3: Grafico em setores para a variavel 
Y: grau de instrupao. 



2.3.2 Graficos para Variaveis Quantitativas 

Para variaveis quantitativas podemos considerar uma variedade maior de representa- 
goes graficas. 

Exemplo 2.5, Considere a distribuigao da variavel Z, numero de filhos dos empregados 
casados da segao de orgamentos da Companhia M B (Tabela 2.1). Na Tabela 2.5 temos as 
frequences e porcentagens. 

Alem dos graficos usados para as variaveis qualitativas, como ilustrado na Figura 2.4, 
podemos considerar urn grafico chamado grafico de dispersao unidimensional, como o da 
Figura 2.5 (a), em que os valores sao representados por pontos ao longo da reta (provida de 
uma escala). Valores repetidos sao acompanhados por urn numero que indica as repetigoes. 
Outra possibilidade e considerar urn grafico em que os valores repetidos sao "empilhados 1 ', 
urn em cima do outro, como na Figura 2.5 (b). Pode-se tambem apresentar o ponto mais alto 
da pilha, como aparece na Figura 2.5 (c). 


Figura 2.4: Grafico em barras para a variavel Z: 
numero de filhos. 
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Figure! 2.5 Graficos de dispersao unidimensionais para a variavel Z: numero de filhos. 
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Para variaveis quantitativas continuas, necessita-se de alguma adaptagao, como no exemplo 
a seguir. 


Tahela 2.5: Frequencies e porcentagens dos 
empregados da sepao de orpa- 
mentos da Companhia MB, se- 
gundo o numero de filhos. 


N a de filhos 

1 . 

Frequencia 

n i 

Porcentaqem 

lOOf 

0 

4 

20 

1 

5 

25 

2 

7 

35 

3 

3 

15 

5 

1 

5 

Total 

20 

100 


Fonte: Tabela 2.1. 


Exemplo 2.6 Queremos representar graficamente a distribuigao da variavel S, salario 
dos empregados da segao de orgamentos da Companhia M B. A Tabela 2.4 fornece a 
distribuigao de frequencias de 5. Para fazer uma representagao similar as apresentadas 
anteriormente, devemos usar o artificio de aproximar a variavel contfnua por uma 
variavel discreta, sem perder muita informagao. Isto pode ser feito supondo-se que todos 
os salarios em determinada classe sao iguais ao ponto medio desta classe. Assim, os dez 
salarios pertencentes a primeira classe (de quatro a oito salarios) serao admitidos iguais 
a 6,00, os 12 salarios da segunda classe (oito a doze salarios) serao admitidos iguais a 
10,00 e assim por diante. Entao, podemos reescrever a Tabela 2.4 introduzindo os pon- 
tos medios das classes. Estes pontos estao na segunda coluna da Tabela 2.6. 
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Com a tabela assim construfda podemos representar os pares (s jf ou (s,, f), por um 
grafico em barras, setores ou de dispersao unidimensional. Veja a Figura 2.6. 


Figura 2.6: Grafico em barras para a variavel S: 
salarios. 



0 artiffcio usado acima para representar uma variavel continua faz com que se 
perca muito das informagoes nela contidas. Uma alternativa a ser usada nestes casos e 
o grafico conhecido como histograma. 


Tabela 2.6: Distribuipao de frequencies da variavel S, salario 
dos empregados da sepao de orpamentos da 
Companhia MB. 


Classes de 
salarios 

Ponto medio 

Sj 

Frequencia 

n i 

Porcentaqem 

100 f, 

4,001- 8,00 

6,00 

10 

27,78 

8,001- 12,00 

10,00 

12 

33,33 

12,001- 16,00 

14,00 

8 

22,22 

16,001-20,00 

18,00 

5 

13,89 

20,001-24,00 

22,00 

1 

2,78 

Total 

- 

36 

100,00 


Fonte: Tabela 2.4. 


Exemplo 2.7 Usando ainda a variavel S do Exemplo 2.4, apresentamos na Figura 2.7 
o histograma de sua distribuigao. 

0 histograma e um grafico de barras contiguas, com as bases proporcionais aos inter¬ 
vals das classes e a area de cada retangulo proporcional a respectiva frequencia. Pode-se 
usar tanto a frequencia absoluta, n., como a relativa, f. Indiquemos a amplitude do i-esimo 
intervalo por A. Para que a area do retangulo respectivo seja proporcional a f, a sua altura 
deve ser proporcional a f./A. (ou a n./A.), que e chamada densidade de frequencia da 
i-esima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retangulo. 
Com essa convengao, a area total do histograma sera igual a um. 
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Quando os intervalos das classes forem todos iguais a A, a densidade de frequencia da 
i-esima classe passa a ser f/A (ou n/A). E claro que marcar no eixo das ordenadas os valores 
n., f, n./A ou f/A leva a obter histogramas com a mesma forma; somente as areas e que 
serao diferentes. 0 Problema 10 traz mais informagoes sobre a construgao de histogramas. 


Figura 2.7: HisFograma da variavel S: salarios. 



Para facilitar o entendimento, foi colocada acima de cada setor (retangulo) a res- 
pectiva porcentagem das observagoes (arredondada). Assim, por meio da figura, po- 
demos dizer que 61% dos empregados tern salario inferior a 12 salarios minimos, ou 
17% possuem salario superior a 16 salarios minimos. 

Do mesmo modo que usamos urn artificio para representar uma variavel contfnua 
como uma variavel discreta, podemos usar urn artificio para construir urn histograma 
para variaveis discretas. A Figura 2.8 e urn exemplo de como ficaria o histograma da 
variavel Z, numero de filhos dos empregados casados da segao de orgamentos da Com- 
panhia M B, segundo os dados da Tabela 2.5. 0 grafico e suficientemente auto-explicativo, 
de modo que omitimos detalhes sobre sua construgao. 


Figura 2.8: Histograma da variavel Z: numero de filhos. 
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2.4 Ramo-e-Folhas 

Tanto o histograma como os graficos em barras dao uma ideia da forma da distribuigao da 
variavel sob consideragao. Veremos, no Capftulo 3, outras caracteristicas da distribuigao de uma 
variavel, como medidas de posigao e dispersao. Mas a forma da distribuigao e tao importante 
quanto estas medidas. Por exemplo, saber que a renda per capita de urn pais e de tantos dola-res 
pode ser urn dado interessante, mas saber como esta renda se distribui e mais importante. 

Urn procedimento alternativo para resumir urn conjunto de valores, com o objetivo de se 
obter uma ideia da forma de sua distribuigao, e o ramo-e-folhas. U ma vantagem deste diagrama 
sobre o histograma e que nao perdemos (ou perdemos pouca) informagao sobre os dados em si. 

Exemplo 2.8. Na Figura 2.9 construfmos o ramo-e-folhas dos salarios de 36 empregados da 
Companhia M B (Tabela 2.1). Nao existe uma regra fixa para construir o ramo-e-folhas, mas 
a ideia basica e dividir cada observagao em duas partes: a primeira (o ramo) e colocada a 
esquerda de uma linha vertical, a segunda (a folha) e colocada a direita. Assim, para os 
salarios 4,00 e 4,56, o 4 e o ramo e 00 e 56 sao as folhas. 

Urn ramo com muitas folhas significa maior incidencia daquele ramo (realizagao). 

Figura 2.9: Ramo-e-folhas para a 
variavel S: salarios. 


4 

OO 56 

5 

25 73 

6 

26 66 86 

7 

39 44 59 

8 

12 46 74 95 

9 

13 35 77 80 

10 

53 76 

11 

06 59 

12 

OO 79 

13 

23 60 85 

14 

69 71 

15 

99 

16 

22 61 

17 

26 

18 

75 

19 

40 

20 


21 


22 


23 

30 


Algumas informagoes que se obtem deste ramo-e-folhas sao: 

(a) Ha urn destaque grande para o valor 23,30. 

(b) Os demais valores estao razoavelmente concentrados entre4,00 e 19,40. 

(c) Urn valor mais ou menos tfpico para este conjunto de dados poderia ser, por exemplo, 10,00. 

(d) Ha uma leve assimetria em diregao aos valores grandes; a suposigao de que estes dados 
possam ser considerados como amostra de uma populagao com distribuigao simetrica, em 
forma de sino (a chamada distribuigao normal), pode ser questionada. 
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A escolha do numero de linhas do ramo-e-folhas e equivalente a escolha do numero de 
classes de um histograma. Um numero pequeno de linhas (ou de classes) enfatiza a parte M 
da relagao (1.1), enquanto um numero grande de linhas (ou de classes) enfatiza a parte R. 

Exemplo 2.9, Os dados abaixo referem-se a dureza de 30 pegas de aluminio (Hoaglin, 


osteller e 

Tukey, 

1983, 

pag. 13). 







53,0 

70,2 

84,3 

69,5 

77,8 

87,5 

53,4 

82,5 

67,3 

54,1 

70,5 

71,4 

95,4 

51,1 

74,4 

55,7 

63,5 

85,8 

53,5 

64,3 

82,7 

78,5 

55,7 

69,1 

72,3 

59,5 

55,3 

73,0 

52,4 

50,7 


Na Figura 2.10 temos o ramo-e-folhas correspondente. Aqui, optamos por truncar 
cada valor, omitindo os decimos, de modo que 69,1 e 69,5, por exemplo, tornam-se 
69 e 69 e aparecem como 9 na linha que corresponde ao ramo 6. 


Figura 2.10: Ramo-e-folhas para os dados de du¬ 
reza de pe<pas de aluminio. 


5 

01 233345559 

6 

3 4 7 9 9 

7 

OOl 2 3 4 7 8 

8 

2 2 4 5 7 

9 

5 


Este e um exemplo em que temos muitas folhas em cada ramo. Uma maneira 
alternativa e duplicar os ramos. Criamos os ramos 5* e 5*, 6* e 6* etc., onde coloca- 
mos folhas de 0 a 4 na linha * e folhas de 5 a 9 na linha *. Obtemos o ramo-e-folhas 
da Figura 2.11. 

Um ramo-e-folhas pode ser "adornado" com outras informagoes, como o nume¬ 
ro de observagoes em cada ramo. Para outros exemplos, veja o Problema 19. 

Figura 2.11 : Ramo-e-folhas para os 
dados de dureza, com 
ramos divididos. 


5* 

0 1 2 3 3 3 4 

5* 

5 5 5 9 

6* 

3 4 
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7 9 9 

7* 

OOl 234 

7* 

7 8 

8* 
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4. Contou-se o numero de erros de impressao da primeira pagina de um jornal durante 
50 dias, obtendo-se os resultados abaixo: 


8 

11 

8 

12 

14 

13 

11 

14 

14 

15 

6 

10 

14 

19 

6 

12 

7 

5 

8 

8 

10 

16 

10 

12 

12 

8 

11 

6 

7 

12 

7 

10 

14 

5 

12 

7 

9 

12 

11 

9 

14 

8 

14 

8 

12 

10 

12 

22 

7 

15 


(a) Represente os dados graficamente. 

(b) Faga um histograma e um ramo-e-folhas. 

5. Usando os resultados do Problema 2 e da Tabela 2.3: 

(a) construa um histograma para a variavel idade; e 

(b) proponha uma representagao grafica para a variavel grau de instrugao. 

6. As taxas medias geometricas de incremento anual (por 100 habitantes) dos 30 maiores 
municipios do Brasil estao dadas abaixo. 


3,67 

1,82 

3,73 

4,10 

4,30 

1,28 

8,14 

2,43 

4,17 

5,36 

3,96 

6,54 

5,84 

7,35 

3,63 

2,93 

2,82 

8,45 

5,28 

5,41 

7,77 

4,65 

1,88 

2,12 

4,26 

2,78 

5,54 

0,90 

5,09 

4,07 


(a) Construa um histograma. 

(b) Construa um grafico de dispersao unidimensional. 

7. Voce foi convidado para chefiar a segao de orgamentos ou a segao tecnica da Compa- 
nhia MB. Apos analisar o tipo de servigo que cada segao executa, voce ficou indeciso e 
resolveu tomar a decisao baseado em dados fornecidos para as duas segoes. O departa- 
mento pessoal forneceu as dados da Tabela 2.1 para os funcionarios da segao de 
orgamentos, ao passo que para a segao tecnica os dados vieram agrupados segundo as 
tabelas abaixo, que apresentam as frequencies dos 50 empregados dessa segao, segundo 
as variaveis grau de instrugao e salario. Baseado nesses dados, qual seria a sua deci¬ 
sao? Justifique. 


Instrugao 

Frequencia 

Fundamental 

15 

Medio 

30 

Superior 

5 

Total 

50 
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Classe de Salarios 

Frequencia 

7,501- 10,50 

14 

10,501-13,50 

17 

13,501- 16,50 

11 

16,501-19,50 

8 

Total 

50 


8. Construa urn histograma, um ramo-e-folhas e um grafico de dispersao unidimensiona 
para o conjunto de dados 2 (CD-Municipios). 


2.5 Exemplos Computacionais 

Nesta segao vamos analisar dois dos conjuntos de dados apresentados no final do 
livro, utilizando tecnicas vistas neste capitulo e programas computacionais. 

Exemplo 2.10. Considere o conjunto de notas em Estatistica de 100 alunos de um 
curso de Economia (conjunto de dados 3, CD-Notas). 0 histograma dos dados esta na 
Figura 2.12, que mostra que a distribuigao dos dados e razoavelmente simetrica. 0 
grafico de dispersao unidimensional e o ramo-e-folhas correspondentes estao nas Fi- 
guras 2.13 e 2.14, respectivamente, e ambos contem informagao semelhante a dada 
pelo histograma. 


Figura 2.12: Histograma para o CD-Notas. SPlus. 













24 


CAPITULO 2 — RESUMO DE DADOS 


Figure! 2.13: Grafico de dispersao unidimensional para o CD-Notas. Minitab. 
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Figura 2.14: Ramo-e-folhas para o CD-Notas. Minitab. 


1 

5 

2 

555 

3 

000055555 

4 

000000555555 

5 

00000000055555555555 

6 

000000000000055555555555 

7 

0000005555555555 

8 

000000555 

9 

005 

10 

000 


Exemplo 2.11. 0 conjunto de dados 4 (CD-Poluigao) traz dados sobre a poluigao na cidade 
de Sao Paulo. Tomemos os dados de temperatura, de l 2 de janeiro a 30 de abril de 1991 
(120 dados). Essas observagoes constituem o que se chama serie temporal, ou seja, os da¬ 
dos sao observados em instantes ordenados do tempo. Espera-se que exista relagao entre as 
observagoes em instantes de tempo diferentes, o que nao acontece com os dados do exemplo 
anterior: a nota de urn aluno, em prindpio, e independente da nota de outro aluno qualquer. 
0 grafico dessa serie temporal esta na Figura 2.15. Observa-se uma variagao da temperatura 
no decorrer do tempo, entre 12 e 22 °C. 

Figura 2.15 Dados de temperatura de Sao Paulo. SPlus. 
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0 histograma e o grafico de dispersao unidimensional estao nas Figuras 2.16 e 2.17, 
respectivamente, mostrando que a distribuigao dos dados nao e simetrica. 0 ramo-e-folhas 
da Figura 2.18 ilustra o mesmo comportamento. 

Figure! 2.16: Histograma dos dados de temperatura de Sao Paulo. SPlus. 
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Figura 2.17: Grafico de dispersao unidimensional para os dados de 
temperatura de Sao Paulo. Minitab. 
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Figura 2.18: Ramo-e-folhas para os dados de temperatura de 
Sao Paulo. Minitab. 


12 

3 

13 

128 

14 

0012588899 

15 

112222225558899 

16 

000000013344678999 

17 

000000001236688888999 

18 

00000000001111233345566889999999 

19 

00000000012289 

20 

00011 

21 

0 


Em cada figura esta indicado o pacote computacional que foi utilizado, com as 
devidas adaptagoes. 
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2.6 Problemas e Complementos 

9. A MB Industria e Comercio, desejando melhorar o nfvel de seus funcionarios em cargos 
de chefia, montou urn curso experimental e indicou 25 funcionarios para a primeira 
turma. Os dados referentes a segao a que pertencem, notas e graus obtidos no curso 
estao na tabela a seguir. Como havia duvidas quanto a adogao de urn unico criterio de 
avaliagao, cada instrutor adotou seu proprio sistema de aferigao. Usando dados daquela 
tabela, responda as questoes: 

(a) Apos observar atentamente cada variavel, e com o intuito de resumi-las, como voce 
identificaria (qualitativa ordinal ou nominal e quantitative discreta ou contfnua) cada 
uma das 9 variaveis listadas? 

(b) Compare e indique as diferengas existentes entre as distributes das variaveis Direito, 
Politico e Estatistica. 

(c) Construa o histograma para as notas da variavel Redagao. 

(d) Construa a distribuigao de frequencies da variavel Metodologia e faga urn grafico 
para indicar essa distribuigao. 

(e) Sorteado ao acaso urn dos 25 funcionarios, qual a probabilidade de que ele tenha 
obtido grau A em Metodologia? 

(f) Se, em vez de urn, sorteassemos dois, a probabilidade de que ambos tivessem tido A 
em Metodologia e maior ou menor do que a resposta dada em (e)? 

(g) Como e o aproveitamento dos funcionarios na disciplina Estatistica, segundo a segao 
a que eles pertencem? 


Func. 

Segao 

(*) 

Administr. 

Direito 

Redagao 

Estatist. 

Ingles 

Metodologia 

Politico 

Economia 

1 

P 

8,0 

9,0 

8,6 

9,0 

B 

A 

9,0 

8,5 

2 

P 

8,0 

9,0 

7,0 

9,0 

B 

C 

6,5 

80 

3 

P 

8,0 

9,0 

8,0 

8,0 

D 

B 

9,0 

8,5 

4 

P 

6,0 

9,0 

8,6 

8,0 

D 

C 

6,0 

8,5 

5 

P 

8,0 

9,0 

8,0 

9,0 

A 

A 

6,5 

9,0 

6 

P 

8,0 

9,0 

8,5 

10,0 

B 

A 

6,5 

9,5 

7 

P 

8,0 

9,0 

8,2 

8,0 

D 

C 

9,0 

7,0 

8 

T 

10,0 

9,0 

7,5 

8,0 

B 

C 

6,0 

8,5 

9 

T 

8,0 

9,0 

9,4 

9,0 

B 

B 

10,0 

8,0 

10 

T 

10,0 

9,0 

7,9 

8,0 

B 

C 

9,0 

7,5 

11 

T 

8,0 

9,0 

8,6 

10,0 

C 

B 

10,0 

8,5 

12 

T 

8,0 

9,0 

8,3 

7,0 

D 

B 

6,5 

8,0 

13 

T 

6,0 

9,0 

7,0 

7,0 

B 

C 

6,0 

8,5 

14 

T 

10,0 

9,0 

8,6 

9,0 

A 

B 

10,0 

7,5 

15 

V 

8,0 

9,0 

8,6 

9,0 

C 

B 

10,0 

7,0 

16 

V 

8,0 

9,0 

9,5 

7,0 

A 

A 

9,0 

7,5 

17 

V 

8,0 

9,0 

6,3 

8,0 

D 

C 

10,0 

7,5 

18 

V 

6,0 

9,0 

7,6 

9,0 

C 

C 

6,0 

8,5 

19 

V 

6,0 

9,0 

6,8 

4,0 

D 

C 

6,0 

9,5 

20 

V 

6,0 

9,0 

7,5 

7,0 

C 

B 

6,0 

8,5 

21 

V 

8,0 

9,0 

7,7 

7,0 

D 

B 

6,5 

8,0 

22 

V 

6,0 

9,0 

8,7 

8,0 

C 

A 

6,0 

9,0 

23 

V 

8,0 

9,0 

7,3 

10,0 

C 

C 

9,0 

7,0 

24 

V 

8,0 

9,0 

8,5 

9,0 

A 

A 

6,5 

9,0 

25 

V 

8,0 

9,0 

7,0 

9,0 

B 

A 

9,0 

8,5 


(*) (P = departamento pessoal, T = segao tecnica e V = segao de vendas) 
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10. Intervalos de classes desiguais. E muito comum o uso de classes com tamanhos desi- 
guais no agrupamento dos dados em tabelas de frequencies. Nestes casos deve-se 
tomar alguns cuidados especiais quanto a analise e construgao do histograma. 

A tabela abaixo fornece a distribuigao de 250 empresas classificadas segundo o 
numero de empregados. Uma analise superficial pode levar a conclusao de que a 
concentragao vem aumentando ate atingir urn maximo na classe 40 I— 60, voltando 
a diminuir depois, mas nao tao acentuadamente. Porem, um estudo mais detalhado 
revela que a amplitude da classe 40 K 60 e o dobro da amplitude das classes anterio- 
res. Assim, espera-se que mais elementos caiam nessa classe, mesmo que a concen¬ 
tragao seja levemente inferior. Entao, um primeiro cuidado e construir a coluna que 
indica as amplitudes A. f de cada classe. Estes valores estao representados na terceira 
coluna da tabela. 


Numero de 
empregados 

Frequencia 

Hi 

Amplitude 

Ai 

Densidade 

rij/Aj 

Proporcao 

fi 

Densidade 

fi/A; 

OK 

10 

5 

10 

0,50 

0,02 

0,0020 

10K 

20 

20 

10 

2,00 

0,08 

0,0080 

20 K 

30 

35 

10 

3,50 

0,14 

0,0140 

30 K 

40 

40 

10 

4,00 

0,16 

0,0160 

40 K 

60 

50 

20 

2,50 

0,20 

0,0100 

60 K 

80 

30 

20 

1,50 

0,12 

0,0060 

80 K 

100 

20 

20 

1,00 

0,08 

0,0040 

100K 

140 

20 

40 

0,50 

0,08 

0,0020 

140K 

180 

15 

40 

0,38 

0,06 

0,0015 

180K 

260 

15 

80 

0,19 

0,06 

0,0008 

Total 

250 

- 

- 

1,00 

- 


Um segundo passo e a construgao da coluna das densidades de frequencies em 
cada classe, que e obtida dividindo as frequencies n i pelas amplitudes A., ou seja, a 
medida que indica qual a concentragao por unidade da variavel. Assim, observan- 
do-se os numeros da quarta coluna, ve-se que a classe de maior concentragao 
passa a ser a 301— 40, enquanto a ultima e a de menor concentragao. Para compreender 
a distribuigao, estes dados sao muito mais informativos do que as frequencies absolu- 
tas simplesmente. 

De modo analogo, pode-se construir a densidade da proporgao (ou porcentagem) 
por unidade da variavel (verifique a construgao atraves da 5 a e da 6 a colunas). A inter- 
pretagao para IJA e muito semelhante aquela dada para U.JA.^ 

Para a construgao do histograma, basta lembrar que a area total deve ser igual a 1 
(ou 100%), o que sugere usar no eixo das ordenadas os valores de f/A r O histograma 
para estes dados esta na Figura 2.19. 
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Figure! 2.19: Histograma dos dados do Problema 10. 



11. Dispomos de uma relagao de 200 alugueis de imoveis urbanos e uma relagao de 100 
alugueis rurais. 

(a) Construa os histogramas das duas distribuigoes. 

(b) Com base nos histogramas, discuta e compare as duas distribuigoes. 


Classes de alugueis (codificados) 

Zona urbana 

Zona rural 

2H 

3 

10 

30 

31- 

5 

40 

50 

51- 

7 

80 

15 

71- 

10 

50 

5 

101— 

15 

20 

0 

Total 

200 

100 


12. Histograma alisado. Na Tabela 2.4 tem-se a distribuigao de frequencies dos salarios de 
36 funcionarios, agrupados em classes de amplitude 4. Na Figura 2.7 tem-se o respectivo 
histograma. Reagrupando-se os dados em classes de amplitude 2, obter-se-ia a seguinte 
tabela de frequencies e o correspondente histograma (Fig. 2.20 (a)). 


Classe de salarios 

Frequences 

rij 

4,001- 

6,00 

4 

6,00 b 

8,00 

6 

8,00 b 

10,00 

8 

10,00 b 

12,00 

4 

12,00 b 

14,00 

5 

14,00 b 

16,00 

3 

16,00 b 

18,00 

3 

18,00 b 

20,00 

2 

20,00 b 

22,00 

0 

22,00 b 

24,00 

1 

Total 

36 
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Figura 2.20 (a): Histograma para a variavel S: salario, A = 2. 



Se houvesse um numero suficientemente grande de observagoes, poder-se-ia ir 
diminuindo os intervalos de classe, e o histograma iria ficando cada vez menos irregu¬ 
lar, ate atingir um caso limite com uma curva bem mais suave. Por exemplo, o compor- 
tamento da distribuigao dos salarios poderia ter a representagao da Figura 2.20 (b). 
Esse histograma alisado e muito util para ilustrar rapidamente qual o tipo de compor- 
tamento que se espera para a distribuigao de uma dada variavel. No capftulo referente 
a variaveis aleatorias contfnuas, voltaremos a estudar este histograma sob um ponto de 
vista mais matematico. 

A interpretagao desse grafico e a mesma do histograma. Assim, nas regioes onde 
a curva e mais alta, significa uma maior densidade de observagoes. No exemplo aci- 
ma, conforme se aumenta o salario, observa-se que a densidade de frequencia vai 
diminuindo. 


Figura 2.20 (b): Histograma alisado para a variavel S: salario. 
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13. Esboce o histograma alisado para cada uma das situagoes descritas abaixo: 

(a) Distribuigao dos salarios registrados em carteira de trabalho de moradores da 
cidade de Sao Paulo. 

(b) Distribuigao das idades de alunos de uma Faculdade de Economia e Admi- 
nistragao. 

(c) Distribuigao das idades dos alunos de uma classe da Faculdade do item anterior. 
Compare as duas distribuigoes. 

(d) Distribuigao do numero de obitos segundo a faixa etaria. 

(e) Distribuigao do numero de divorcios segundo o numero de anos de casado. 

(f) Distribuigao do numero formado pelos dois ultimos algarismos do primeiro premio da 
Loteria Federal, durante os dez ultimos anos. 

14. Faga no mesmo grafico um esbogo das tres distribuigoes descritas abaixo: 

(a) Distribuigao das alturas dos brasileiros adultos. 

(b) Distribuigao das alturas dos suecos adultos. 

(c) Distribuigao das alturas dos japoneses adultos. 

15. Frequencies acumuladas. Uma outra medida muito usada para descrever dados quan- 
titativos e a frequencia acumulada, que indica quantos elementos, ou que porcenta- 
gem deles, estao abaixo de um certo valor. Na tabela a seguir, a terceira e a quinta 
colunas indicam respectivamente a frequencia absoluta acumulada e a proporgao 
(porcentagem) acumulada. Assim, observando a tabela podemos afirmar que 27,78% 
dos individuos ganham ate oito salarios nmnimos; 61,11% ganham ate 12 salarios mfni- 
mos; 83,33% ganham ate 16 salarios nmnimos; 97,22% ganham ate 20 salarios 
nmnimos e 100% dos funcionarios ganham ate 24,00 salarios. 


Classe de 
salarios 

Frequencia 

n : 

Frequencia 

acumulada 

N i 

Porcentaqem 

lOOfj 

Porcentagem 

acumulada 

100 F i 

4,00 H 8,00 

10 

10 

27,78 

27,78 

8,001- 12,00 

12 

22 

33,33 

61,11 

12,001- 16,00 

8 

30 

22,22 

83,33 

16,00 h 20,00 

5 

35 

13,89 

97,22 

20,001-24,00 

1 

36 

2,78 

100,00 

Total 

36 

- 

100,00 

- 


A Figura 2.21 e a ilustragao grafica da porcentagem acumulada. 
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Figura 2.21: Porcentagens acumuladas para o Problema 15. 



Este grafico pode ser usado para fornecer informagoes adicionais. Por exemplo, para 
saber qual o salario S tal que 50% dos funcionarios ganhem menos do que S, basta 
procurar o ponto (s, 50) na curva. Observando as linhas pontilhadas no grafico, verifi- 
camos que a solugao e um pouco mais do que 10 salarios minimos. 

16. Usando os dados da Tabela 2.1: 

(a) Construa a distribuigao de frequencies para a variavel idade. 

(b) Faga o grafico da porcentagem acumulada. 

(c) Usando o grafico anterior, ache os valores de i correspondentes aos pontos ( i, 25%), 
(i, 50%) e (i, 75%). 

17. Frequencies acumuladas (continuagao). Para um tratamento estatfstico mais rigoroso das 
variaveis quantitativas, costuma-se usar uma definigao mais precisa para a distribuigao 
das frequencies acumuladas. Em capitulos posteriores sera vista a sua utilizagao. 

Definigao. Dadas n observagoes de uma variavel quantitative e um numero X real qualquer, 
indicar-se-a por N(x) o numero de observagoes menores ou iguais a X, e chamar-se-a de 
fungao de distribuigao empirica (f.d.e.) a fungao F n (x) ou F e (x) 


F e (x) = F n (x) = 


N (x) 
n 


Exemplo 2.12. Para a variavel S = salario dos 36 funcionarios listados na Tabela 2.1, e 
facil verificar que: 


F 36 (s) = 


0, ses<4,00 

1/36 , se 4,00 =ss< 4,56 
2/36 , se 4,56 ^ s < 5,25 


. 1, sess= 23,30 


0 grafico esta na Figura 2.22. Aqueles nao familiarizados com a representagao 
grafica de fungoes, recomenda-se a leitura de Morettin, Flazzan & Bussab (2005). 
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Figura 2.22: Fun^ao de distribuicao empirica para o Exemplo 2.12. 
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Exemplo 2 . Esta definigao tambem vale para variaveis quantitativas discretas. 


F,n(x)= < 


cujo grafico e o da Figura 2.23. 


ios resumida 

na Tabela 2.5, tem-se a seguinte f.d.e 

0,00, 

sex < 0 

0,20, 

se 0 ^ x < 1 

0,45, 

se 1 =s x < 2 

0,80, 

se 2 s£ x < 3 

0,95, 

se 3 s£ x < 5 

1,00, 

sex 5 


Figura 2.23: Fun^ao de distribui^ao empirica 
para o Exemplo 2.13. 
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18. Construir a f.d.e. para a variavel idade referente aos dados da Tabela 2.1. 

19. Ramo-e-folhas (continuagao). Os dados abaixo referem-se a produgao, em toneladas, 
de dado produto, para 20 companhias qufmicas (numeradas de 1 a 20). 

(1,50), (2,280), (3,560), (4,170), (5,180), 

(6,500), (7,250), (8,200), (9,1.050), (10,240), 

(11,180), (12,1.000), (13,1.100), (14,120), (15,4.200), 

(16,5.100), (17,480), (18,90), (19,870), (20,360). 

Vemos que os valores estendem-se de 50 a 5.100 e, usando uma representagao 
semelhante a da Figura 2.9, terfamos um grande numero de linhas. A Figura 2.24 (a) 
mostra uma outra forma de ramo-e-folhas, com ramos divididos. A divisao ocorre no 
ramo, cada vez que se muda por um fator de 10. 

Uma economia de 4 linhas poderia ser obtida, representando-se os valores 50 e 90 
da Figura 2.24 (a) num ramo denominado 0. Obtemos a Figura 2.24 (b). 

Os pacotes computacionais trazem algumas opgoes adicionais ao construir um ramo- 
e-folhas. Por exemplo, podemos ter a contagem do numero de folhas em cada ramo, como 
mostra a Figura 2.25 (a). Aqui, temos o ramo-e-folhas dos salarios dos empregados da 
Tabela 2.1. Na Figura 2.25 (b) acrescentamos as contagens de folhas a partir de cada 
extremo ate o ramo que contem a mediana. Esse tipo de opgao e chamado profundidade 
(depth) nos pacotes. 

Figura 2.24 Ramo-e-folhas das produgoes de companhias qufmicas. 
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Figura 2.25: Ramo-e-folhas com: (a) frequences em cada ramo, (b) profundidade. 
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20. Construa um ramo-e-folhas para a variavel CO (monoxido de carbono) do conjunto de 
dados 4 (CD-Poluigao). 







Capitulo 3 


Medidas-Resumo 


3.1 Medidas de Posicao 

* 

Vimos que o resumo de dados por meio de tabelas de frequences e ramo-e-folhas forne- 
ce muito mais informagoes sobre o comportamento de uma variavel do que a propria tabela 
original de dados. Muitas vezes, queremos resumir ainda mais estes dados, apresentando 
urn ou alguns valores que sejam representatives da serie toda. Quando usamos urn so valor, 
obtemos uma redugao drastica dos dados. Usualmente, emprega-se uma das seguintes me¬ 
didas de posigao (ou localizagao) central: media, mediana ou moda. 

A moda e definida como a realizagao mais frequente do conjunto de valores observados. 
Por exemplo, considere a variavel Z, numero de filhos de cada funcionario casado, resumida 
na Tabela 2.5 do Capitulo 2. Vemos que a moda e 2, correspondente a realizagao com maior 
frequencia, 7. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuigao dos 
valores pode ser bimodal, trimodal etc. 

A mediana e a realizagao que ocupa a posigao central da serie de observagoes, quando 
estao ordenadas em ordem crescente. Assim, se as cinco observagoes de uma variavel forem 
3, 4, 7, 8 e 8, a mediana e o valor 7, correspondendo a terceira observagao. Quando o 
numero de observagoes for par, usa-se como mediana a media aritmetica das duas observa¬ 
goes centrais. Acrescentando-se o valor 9 a serie acima, a mediana sera (7 + 8)/2 = 7,5. 

Finalmente, a media aritmetica, conceito familiar ao leitor, e a soma das observagoes divi- 
dida pelo numero delas. Assim, a media aritmetica de 3, 4, 7, 8 e 8 e (3 + 4 + 7 + 8 + 8)/5 = 6. 

Exemplo 3.1. Usando os dados da Tabela 2.5, ja encontramos que a moda da variavel Z e 2. 
Para a mediana, constatamos que esta tambem e 2, media aritmetica entre a decima e a 
decima primeira observagoes. Finalmente, a media aritmetica sera 

4x0+5xl+7x2+3x3+5xl 33 

-20- = TO = L65 ' 
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Neste exemplo, as tres medidas tern valores proximos e qualquer uma delas pode ser 
usada como representativa da serie toda. A media aritmetica e, talvez, a medida mais usada. 
Contudo, ela pode conduzir a erros de interpretagao. Em muitas situagoes, a mediana e uma 
medida mais adequada. Voltaremos a este assunto mais adiante. 

Vamos formalizar os conceitos introduzidos acima. Se x 1( x n sao os n valores 
(distintos ou nao) da variavel X, a media aritmetica, ou simplesmente media, de X 
pode ser escrita 


= x, + ... +x n 


1 n 

= i Ex, 

n i =i 


(3.1) 


A gora, se tivermos n observagoes da variavel X, das quais n 2 sao iguais a x v n 2 sao iguais 
a x 2 etc., n k iguais a x k , entao a media de X pode ser escrita 


n 1 x 1 +n 2 x 2 + ... +n k x k _ 1 v nY 
n n fTi 1 


(3.2) 


Sef. = n. /n representar a frequencia relativa da observagao x j( entao (3.2) tambem pode 
ser escrita 


x=Sf i x i . 

i =i 1 1 


(3.3) 


Consideremos, agora, as observagoes ordenadas em ordem crescente. Vamos denotar a 
menor observagao por x (1) , a segunda por x (2) , e assim por diante, obtendo-se 


in 


( 2 ) 


<n -1) 


(n)' 


(3.4) 


Por exemplo, sex 2 =3, x 2 =-2, x 3 =6, x 4 = 1, x 5 =3, entao -2 s=ls=3s=3s=6, demodo 
que x (1) = - 2, x (2) = 1, x (3) = 3, x (4) = 3 e x (5) = 6. 

As observagoes ordenadas como em (3.4) sao chamadas estatisticas de ordem. 

Com esta notagao, a mediana da variavel X pode ser definida como 


md(X) 


x m 




se n fmpar; 
se n par. 


(3.5) 


Exemplo 3.2 A determinagao das medidas de posigao para uma variavel quantitativa 
contfnua, atraves de sua distribuigao de frequencias, exige aproximagoes, pois perde- 
mos a informagao dos valores das observagoes. Consideremos a variavel S: salario 
dos 36 funcionarios da Companhia M B, agrupados em classes de salarios, conforme a 
Tabela 2.6. Uma aproximagao razoavel e supor que todos os valores dentro de uma 
classe tenham seus valores iguais ao ponto medio desta classe. Este procedimento nos 
deixa na mesma situagao do caso discrete, onde as medidas sao calculadas usando-se 
os pares (x., n,) ou (x., f), como em (3.2) e (3.3). 
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A moda, mediana e media para os dados da Tabela 2.6 sao, respectivamente, 

mo(S) - 10,00, 

md(S) — 10,00, 

5 _ 10 x 6,00 + 12 x 10,00 + 8 x 14,00 + 5 x 18,00 + 1 x 22,00 _ n 22 

36 

Observequecolocamoso sinal de - enao de igualdade, poisosvaloresverdadeiros nao 
sao os calculados. Por exemplo, a mediana de S e a media entre as duas observagoes cen- 
trais, quando os dados sao ordenados, isto e, 9,80 e 10,53, portanto md(S) = 10,16. Quais 
sao, neste exemplo, a media e moda verdadeiras? 

Observe que, para calcular a moda de uma variavel, precisamos apenas da distribuigao 
de frequences (contagem). Ja para a mediana necessitamos minimamente ordenar as realiza- 
goes da variavel. Finalmente, a media so pode ser calculada para variaveis quantitativas. 

Estas condigoes limitam bastante o calculo de medidas-resumos para as variaveis 
qualitativas. Para as variaveis nominais somente podemos trabalhar com a moda. Para 
as variaveis ordinais, alem da moda, podemos usar tambem a mediana. Devido a esse 
fato, iremos apresentar daqui em diante medidas-resumo para variaveis quantitativas, 
que permitem o uso de operagoes aritmeticas com seus valores. 

Exemplo 3.2. (continuagao) Retomemos os dados da Companhia M B. A moda para a 
variavel V: regiao de procedencia e mo(V) = outra. Para a variavel Y: grau de instrugao, 
temos que mo(Y) = ensino medio e md(Y) = ensino medio. 

Veremos, na segao 3.3, que a mediana e uma medida resistente, ao passo que a 
media nao o e, em particular para distribuigoes muito assimetricas ou contendo valo¬ 
res atipicos. Por outro lado, a media e otima (num sentido que sera discutido no Capi- 
tulo 10) se a distribuigao dos dados for aproximadamente normal. 

Uma outra medida de posigao tambem resistente e a media aparada, definida no 
Problema 39. Esta medida envoive calcular a media das observagoes centrais, despre- 
zando-se uma porcentagem das iniciais e finais. 

3.2 Medidas de Dispersao 

O resumo de urn conjunto de dados por uma unica medida representativa de posi¬ 
gao central esconde toda a informagao sobre a variabilidade do conjunto de observa¬ 
goes. Por exemplo, suponhamos que cinco grupos de alunos submeteram-se a urn 
teste, obtendo-se as seguintes notas: 
grupo A (variavel X): 3, 4, 5, 6, 7 

grupo B (variavel Y): 1, 3, 5, 7, 9 

grupo C (variavel Z): 5, 5, 5, 5, 5 

grupo D (variavel W): 3, 5, 5, 7 

grupo E (variavel V): 3, 5, 5, 6, 6 
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Vemos que x = y = z“= w = v = 5,0. A identificagao de cada uma destas series por sua 
media (5, em todos os casos) nada informa sobre suas diferentes variabilidades. Notamos, 
entao, a convenience de serem criadas medidas que sumarizem a variabilidade de urn con- 
junto de observagoes e que nos permita, por exemplo, comparar conjuntos diferentes de 
valores, como os dados acima, segundo algum criterio estabelecido. 

Urn criterio frequentemente usado para tal fim e aquele que mede a dispersao dos 
dados em torno de sua media, e duas medidas sao as mais usadas: desvio medio e variancia. 
0 princfpio basico e analisar os desvios das observagoes em relagao a media dessas 
observagoes. 

Para o grupo A acima os desvios x. - x sao: -2, -1, 0, 1, 2. E facil ver (Problema 14 
(a)) que, para qualquer conjunto de dados, a soma dos desvios e igual a zero. Nestas 
condigoes, a soma dos desvios y 5 , = 1 (x, - x) nao e uma boa medida de dispersao para o 
conjunto A. Duas opgoes sao: (a) considerar o total dos desvios em valor absoluto; (b) 
considerar o total dos quadrados dos desvios. Para o grupo A teriamos, respectivamente, 

5 

V lx. - xl=2+l+0 + l+ 2=6, 

1 

Y(x. - x) 2 = 4 + 1 + 0 + 1 + 4 = 10. 

Wi 1 

0 uso desses totals pode causar dificuldades quando comparamos conjuntos de dados 
com numeros diferentes de observagoes, como os conjuntos A e D acima. Desse modo, e 
mais conveniente exprimir as medidas como medias, isto e, o desvio medio e a variancia 
sao definidos por 


dm(X) = 

n 

IXj - xl 

i 

(3.6) 

var(X) = 

n 

(X, - X ) 2 

1 

(3.7) 

respectivamente. Para o grupo A temos 




dm(X) = 

6/5 = 

1,2, 


var(X) = 

10/5 = 

= 2,0, 



enquanto para o grupo D temos 

dm(W) =4/4 = 1,0, 
var(W) = 8/4 = 2,0. 

Podemos dizer, entao, que, segundo o desvio medio, o grupo D e mais homogeneo que 
A, enquanto ambos sao igualmente homogeneos, segundo a variancia. 

Sendo a variancia uma medida de dimensao igual ao quadrado da dimensao dos dados 
(por exemplo, se os dados sao expressos em cm, a variancia sera expressa em cm 2 ), pode 
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causar problemas de interpretagao. Costuma-se usar, entao, o desvio padrao, que e definido 
como a raiz quadrada positiva da variancia. Para o grupo A o desvio padrao e 

dp(X) = Vvar (X) = V2 = 1,41. 

Ambas as medidas de dispersao (dm e dp) indicam em media qual sera o "erro" (desvio) 
cometido ao tentar substituir cada observagao pela medida resumo do conjunto de dados 
(no caso, a media). 

Exemplo 3.3. Vamos calcular as medidas de dispersao acima para a variavel Z = numero 
de filhos, resumida na Tabela 2.5. Como vimos no Exemplo 3.1, z = 1,65. Os desvios sao 
i. - z: -1,65; -0,65; 0,35; 1,35; 3,35. Segue-se que 

dm(z ) = 4 x (1,65) + 5 x (0,65) + 7 x (0,35) + 3 x (1,35) + 1 x (3,35) = 0j98 _ 

Tambem, 

var(z) _ 4(-l,65) 2 + 5(-0,65) 2 + 7(0,35) 2 + 3(1,35) 2 + 1(3,35) 2 = ^ 528 

Consequentemente, o desvio padrao de Z e 

dp(Z) = VT528 = 1,24. 

Suponha que observemos n l vezes os valores x : etc., n k vezes o valor x k da variavel 
X. Entao, 


dmlxl-S-.W-x, = £ f 

n i=i 1 1 

(3.8) 

var(X) = -^ i = 1 n ^ Xi ~ ^ = X - x) 2 , 

n i =i 1 1 

(3.9) 

dp(X) = Vvar (X). 

(3.10) 


O calculo (aproximado) das medidas de dispersao no caso de variaveis contfnuas, agru- 
padas em classes, pode ser feito de modo analogo aquele usado para encontrar a media no 
Exemplo 2.2. 

Exemplo 3.4. Consideremos a variavel S = salario. A media encontrada no Exemplo 3.2 
foi s = 11,22. Com os dados da Tabela 2.6 e usando (3.9) encontramos 

var(S) - [10(6, 00 - 11,22) 2 + 12(10,00 - 11,22) 2 + 8(14 - 11,22) 2 
+ 5(18,00 - 11,22) 2 + 1(22,00 - ll,22) 2 ]/36 = 19,40 


e, portanto, 

dp(S) - ^19A0 = 4,40. 

E facil ver que dm(S) - 3,72. 
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Veremos, mais tarde, que a variancia de uma amostra sera calculada usando-se o deno- 
minador n - 1, em vez de n. A justificativa sera dada naquele capftulo, mas para grandes 
amostras pouca diferenga fara o uso de um ou outro denominador. 

Tanto a variancia como o desvio medio sao medidas de dispersao calculadas em rela- 
gao a media das observagoes. Assim como a media, a variancia (ou o desvio padrao) e uma 
boa medida se a distribuigao dos dados for aproximadamente normal. 0 desvio medio e 
mais resistente que o desvio padrao, no sentido a ser estudado na segao seguinte. 

Poderfamos considerar uma medida que seja calculada em relagao a mediana. 0 desvio 
absolute mediano e um exemplo e e mais resistente que o desvio padrao. Veja o Problema 41. 

Usando o Problema 14 (b), uma maneira computacionalmente mais eficiente de calcu- 
lar a variancia e 


V^ n 2 

var(X) = Xi 

e, no caso de observagoes repetidas, 

var(X) =1 f xf 

i =1 1 


-X 2 , 

(3.11) 

X 2 . 

(3.12) 


1. Quer se estudar o numero de erros de impressao de um livro. Para isso escolheu-se uma 
amostra de 50 paginas, encontrando-se o numero de erros por pagina da tabela abaixo. 

(a) Qual o numero medio de erros por pagina? 

(b) E o numero mediano? 

(c) Qual e o desvio padrao? 

(d) Faga uma representagao grafica para a distribuigao. 

(e) Se o livro tern 500 paginas, qual o numero total de erros esperado no livro? 


Erros 

Frequencia 

0 

25 

1 

20 

2 

3 

3 

1 

4 

1 


2. As taxas de juros recebidas por 10 agoes durante um certo periodo foram (medidas em 
porcentagem) 2,59; 2,64; 2,60; 2,62; 2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a media, 
a mediana e o desvio padrao. 

3. Para facilitar um projeto de ampliagao da rede de esgoto de uma certa regiao de uma 
cidade, as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteiroes que 
compoem a regiao, e foram encontrados os seguintes numeros de casas por quarteirao: 


2 

2 

3 

10 

13 

14 

15 

15 

16 

16 

18 

18 

20 

21 

22 

22 

23 

24 

25 

25 

26 

27 

29 

29 

30 

32 

36 

42 

44 

45 

45 

46 

48 

52 

58 

59 

61 

61 

61 

65 

66 

66 

68 

75 

78 

80 

89 

90 

92 

97 
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(a) Use cinco intervalos e construa um histograma. 

(b) Determine uma medida de posigao central e uma medida de dispersao. 

4. (a) De uma situagao pratica onde voce acha que a mediana e uma medida mais apro- 

priada do que a media. 

(b) Esboce um histograma onde a media e a mediana coincidem. Existe alguma classe 
de histogramas onde isso sempre acontece? 

(c) Esboce os histogramas de tres variaveis (X, Y e Z) com a mesma media aritmetica, 
mas com as variancias ordenadas em ordem crescente. 

5. Suponha que a variavel de interesse tenha a distribuigao como na figura abaixo. 



Voce acha que a media e uma boa medida de posigao? E a mediana? Justifique. 

6. Numa pesquisa realizada com 100 familias, levantaram-se as seguintes informagoes: 


Numero de filhos 

0 

1 

2 

3 

4 

5 

mais que 5 

Frequencia de familias 

17 

20 

28 

19 

7 

4 

5 


(a) Qual a mediana do numero de filhos? 

(b) E a moda? 

(c) Que problemas voce enfrentaria para calcular a media? Faga alguma suposigao e 
encontre-a. 


3.3 Quantis Em pi cos 

Tanto a media como o desvio padrao podem nao ser medidas adequadas para represen- 
tar um conjunto de dados, pois: 

(a) sao afetados, de forma exagerada, por valores extremos; 

(b) apenas com estes dois valores nao temos ideia da simetria ou assimetria da 
distribuigao dos dados. 

Para contornar esses fatos, outras medidas tern de ser consideradas. 

Vimos que a mediana e um valor que deixa metade dos dados abaixo dela e metade 
acima (ver formula (3.5)). De modo geral, podemos definir uma medida, chamada quantil 
de ordem p ou p-quantil, indicada por q(p), onde p e uma proporgao qualquer, 0 < p < 1, tal 
que 100p% das observagoes sejam menores do que q(p). 
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Indicamos, abaixo, alguns quantis e seus nomes particulares. 


q (0,25) = q 3 
q (0,50) = q 2 
q (0,75) = q 3 
q (0,40): 
q (0,95): 


I s Quartil = 25 a Percentil 
M ediana = 2 e Quartil = 50 a Percentil 
3 a Quartil = 75 a Percentil 
4 a Decil 
95 s Percentil 


Dependendo do valor de p, ha dificuldades ao se calcular os quantis. Isso e ilustrado no 
exemplo a seguir. 


Exemplo 3.5 Suponha que tenhamos os seguintes valores de uma variavel X: 

15, 5, 3, 8, 10, 2, 7, 11, 12. 

Ordenando os valores, obtemos as estatisticas de ordem x (1) = 2, x (2) = 3,..., x {9) = 15, ou 
seja, teremos 

2 <3 <5 <7 <8 <10 <11 <12 <15. 

Usando a definigao de mediana dada, teremos que md = q(0,5) = q 2 = x (5) = 8. 
Suponha que queiramos calcular os dois outros quartis, q 3 e q 3 . A ideia e dividir os 
dados em quatro partes: 


2 3 5 7 8 10 11 12 15 

Uma possibilidade razoavel e, entao, considerar a mediana dos primeiros quatro 
valores para obter q 3 , ou seja, 

a - 3+5 -i 

Hi 9 


e a mediana dos ultimos quatro valores para obter q 3 , ou seja, 

11 + 12 


q 3 =- 


= 11,5. 


Obtemos, entao, a sequencia 

2 3 (4) 5 7 (8) 10 11 (11,5) 12 15 
Observe que a media dos n = 9 valores e x = 8,1, proximo a mediana. 

Exemplo 3.5 (continuagao). Acrescentemos, agora, o valor 67 a lista de nove valores 
do Exemplo 3.5, obtendo-se agora os n = 10 valores ordenados: 


2<3<5<7<8< 10 <11 <12 <15 <67 
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Agora, x = 14, enquanto que a mediana fica 


que esta proxima da mediana dos nove valores originais, mas ambas (8 e 9) relativa- 
mente longes de x. Dizemos que a mediana e resistente (ou robusta), no sentido que 
que ela nao e muito afetada pelo valor discrepante (ou atlpico) 67. 

Para calcular q 3 e q 3 para este novo conjunto de valores, considere-os assim 
dispostos: 


2 3 5 7 8 9 10 11 12 15 67 

de modo que q 3 = 5 e q 3 = 12. 

Obtemos, entao os dados separados em 4 partes por q v q 2 e q 3 : 

2 3 (5) 7 8 (9) 10 11 (12) 15 67 

Suponha, agora, que queiramos calcular q(0,20), ou seja, aquele valor que 
deixa 20% dos dados a sua esquerda, para o conjunto original de n = 9 valores de X. 
Como 20% das observagoes correspondem a 1,8 observagoes, qual valor devemos 
tomar como q(0, 20)? O valor 3, que e a segunda observagao ordenada, ou 5, ou a 
media de 3 e 5? Se adotarmos esta ultima solugao, entao q(0, 20) = q(0, 25) = q 3 , o 
que pode parecer nao razoavel. 

Para responder a esta questao, temos que definir quantil de uma sequencia de 
valores de uma variavel de modo apropriado. Isto esta feito no Problema 17. 

Se os dados estiverem agrupados em classes, podemos obter os quantis usando o 
histograma. Por exemplo, para obter a mediana, sabemos que ela deve corresponder 
ao valor da abscissa que divide a area do histograma em duas partes iguais (50% para 
cada lado). Entao, usando argumentos geometricos, podemos encontrar urn ponto, 
satisfazendo essa propriedade. Vejamos como proceder atraves de urn exemplo. 

Exemplo 3.6. Vamos repetir abaixo a Figura 2.7, que e o histograma da variavel 
S = salario dos empregados da Companhia M B. 
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Devemos localizar o ponto das abscissas que divide o histograma ao meio. A area do 
primeiro retangulo corresponde a 28% do total, os dois primeiros a 61%; portanto, a mediana 
md e algum numero situado entre 8,00 e 12,00. Ou melhor, a mediana ira corresponder ao 
valor md no segundo retangulo, cuja area do retangulo de base 8,00 h md e a mesma 
altura que o retangulo de base 8,00 h 12,00 seja 22% (28% do primeiro retangulo 
mais 22% do segundo, perfazendo os 50%). Consulte a figura para melhor compreen- 
sao. Pela proporcionalidade entre a area e a base do retangulo, temos: 


12,00 - 8,00 _ md - 8,00 
33% 22% 


OU 


logo 


md - 8,00=H^.4,00, 
33% 


md = 8,00 + 2,67 = 10,67, 

que e uma expressao mais precisa para a mediana do que a mediana bruta encontrada 
anteriormente. 

O calculo dos quantis pode ser feito de modo analogo ao calculo da mediana, 
usando argumentos geometricos no histograma. Vejamos a determinagao de alguns 
quantis, usando os dados do ultimo exemplo. 

(a) q(0,25): Verificamos que q(0,25) deve estar na primeira classe, pois a propor- 
gao no primeiro retangulo e 0,28. Logo, 

q(0,25) - 4,00 _ 8,00-4,00 
25% 28% ' 


e entao 


q(0,25) = 4,00 + tt 4,00 = 7,57. 

Ao 

(b) q(0,95): Analisando a soma acumulada das proporgoes, verificamos que este 
quantil deve pertencer a quarta classe, e que nesse retangulo devemos achar a parte 
correspondente a 12%, pois a soma acumulada ate a classe anterior e 83%, faltando 
12% para atingirmos os 95%. Portanto, 

q(0,95) - 16,00 _ 20,00 - 16,00 
12% 14% ' 
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q(0,95) = 16,00 + x 4 = 19,43. 

(c) q(0,75): De modo analogo, conclufmos que o terceiro quantil deve pertencer 
ao intervalo 12,00 h 16,00, portanto 

q(0,75) - 12,00 _ 16,00- 12,00 
14% 22% 


e 


q(0,75) = 14,55. 

Uma medida de dispersao alternativa ao desvio padrao e a distancia interquartil, 
definida como a diferenga entre o terceiro e primeiro quartis, ou seja, 

d q =q 3 -q r (3.13) 

Para o Exemplo 3.5, temos q 3 = 4, q 3 = 11,5, de modo que d q = 7,5. Para um calculo 
mais preciso, veja o Problema 17. La obtemos q 2 = 4,5, q 3 = 11,25, logo d q = 6,75. 

Os quartis q(0,25) = q 1( q(0,5) = 92 e 9(0,75) = 93 sao medidas de localizagao 
resistentes de uma distribuigao. 

Dizemos que uma medida de localizagao ou dispersao e resistente quando for 
pouco afetada por mudangas de uma pequena porgao dos dados. A mediana e uma 
medida resistente, ao passo que a media nao o e. Para ilustrar este fato, considere as 
populagoes dos 30 municfpios do Brasil, considerados acima. Se descartarmos Rio de 
Janeiro e Sao Paulo, a media das populagoes dos 28 municfpios restantes e 100,6 e a 
mediana e 82,1. Para todos os dados, a media pasa a ser 145,4, ao passo que a mediana 
sera 84,3. Note que a media aumentou bastante, influenciada que foi pelos dois valo- 
res maiores, que sao muito discrepantes da maioria dos dados. Mas a mediana variou 
pouco. O desvio padrao tambem nao e uma medida resistente. Verifique como este 
varia para este exemplo dos municfpios. 

Os cinco valores, x (1) , q 1( q 2 , q 3 e x (n) sao importantes para se ter uma boa ideia da 
assimetria da distribuigao dos dados. Para uma distribuigao simetrica ou aproximada- 
mente simetrica, deverfamos ter: 

(a) - x ,d “ x ,n) - q 2 ; 

(b) q 2 - q 3 — q 3 - q 2 ; 

(c) di - x ,d “ x ,n) - y 

(d) distances entre mediana e q 3 , q 3 menores do que distances entre os extre¬ 
mes e q 3 , q 3 . 

A diferenga q 2 - x (1) e chamada dispersao inferior e x (n) - q 2 e a dispersao supe¬ 
rior. A condigao (a) nos diz que estas duas dispersoes devem ser aproximadamente 
iguais, para uma distribuigao aproximadamente simetrica. 
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A Figura 3.1 ilustra estes fatos para a chamada distribuigao normal ou gaussiana. 

Figura 3.1 : Uma distribuicao simetrica: normal ou gaussiana. 



Na Figura 3.2 temos ilustradas estas cinco medidas para os n = 9 valores do 
Exemplo 3.5. 


Figura 3.2: Quantis e distancias para o Exemplo 3.5. 


x (l) 

q t 



q 2 


q 3 


X <9) 

2 


6 

4 


3,5 

7 

3,5 




(di) ' 




(ds) 




As cinco estatfsticas de ordem consideradas acima podem ser representadas 
esquematicamente como na Figura 3.3, onde tambem incorporamos o numero de ob- 
servagoes, n. Representamos a mediana por md, os quartis por q e os extremos por E. 
Podemos ir alem, considerando os chamados oitavos, ou seja, o primeiro oitavo, que 
corresponde a q(0,125), o setimo oitavo, que corresponde a q(0,875) etc. Teriamos, 
entao, sete numeros para representar a distribuigao dos dados. Em geral, podemos 
considerar as chamadas letras-resumos, descendo aos dezesseis-avos, trinta e dois- 
avos etc. Para detalhes, ver Hoaglin, Mosteller and Tukey(1983). 


Figura 3.3: Esquema dos cinco numeros. 



n 

md 

q 2 


q 

q, q 3 


E 

x d) x (»> 
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Exemplo 3.7 Os aplicativos SPIus e M initab, assim como a planilha Excel, possuem 
ferramentas que geram as principals medidas descritas nesse capftulo e outras. Por 
exemplo, o comando describe do M initab, usado para as populates dos municfpios 
brasileiros produz a safda do Quadro 3.1. 

Quadra 3. Medidas-resumo para o CD-Municfpios. Minitab. 


MTB > Describe Cl. 
Descriptive Statistics 


Variable 

N 

Mean 

Median 

Trmean 

StDev 

SE Mean 

Cl 

30 

145.4 

84.3 

104.7 

186.6 

34.1 

Variable 

Min 

Max 

Q1 

Q3 



Cl 

46.3 

988.8 

63.5 

139.7 




Aqui, temos N = 30 dados, a media e 145,4, a mediana 84,3, o desvio padrao 186,6, 
o menor valor 46,3, o maior valor 988,8, o primeiro quartil 63,5 e o terceiro quartil 139,7. 
Alem desses valores, o resumo traz a media aparada (trimmed mean) e o erro padrao da 
media, a ser tratado no Capftulo 11. Esse e dado por S/Vn = 186,6/V30 = 34,1. 

0 comando summary do SPIus produz a safda do Quadro 3.2 para os mesmos 
dados. Note a diferenga no calculo dos quantis q(0,25) e q(0,75). Conclui-se que e 
necessario saber como cada programa efetua o calculo de determinada estatfstica, para 
poder reporta-lo. 


Quadro 3.2. Medidas-resumo para o CD-Municfpios. SPIus. 


> summary (munic) 





Min. 1st Qu. 

Median 

Mean 

3rd Qu. 

Max. 

46.3 64.48 

84.3 

145.4 

134.3 

988.8 


7. Obtenha o esquema dos cinco numeros para os dados do Problema 3. Calcule o 
intervalo interquartil e as dispersoes interior e superior. Baseado nessas medidas, verifi- 
que se a forma da distribuigao dos dados e normal. 

8. Refaqa o problema anterior, utilizando desta vez os dados do Problema 5 do Capftulo 2. 

9. Obter os tres quartis, q(0,l) e q(0,90) para os dados do Problema 3. 

10. Para a variavel populaqao urbana do CD-Brasil, obtenha q(0,10), q(0,25), q(0,50), 
q(0,75), q(0,80) eq(0,95). 

3.4 Box Plots 

A informagao contida no esquema dos cinco numeros da Figura 3.3 pode ser traduzida 
graficamente num diagrama, ilustrado na Figura 3.4, que chamaremos de box plot. 
Murteira (1993) usa o termo "caixa-de-bigodes". 
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Figura 3.4: Box Plot. 



Para construir este diagrama, consideremos um retangulo onde estao representados a 
mediana e os quartis. A partir do retangulo, para cima, segue uma linha ate o ponto mais 
remoto que nao exceda LS = q 3 + (l,5)d q , chamado limite superior. De modo similar, da 
parte inferior do retangulo, para baixo, segue uma linha ate o ponto mais remoto que nao 
seja menor do que LI = q 1 - (l,5)d q , chamado limite inferior. Os valores compreendidos 
entre esses dois limites sao chamados valores adjacentes. As observagoes que estiverem 
acima do limite superior ou abaixo do limite inferior estabelecidos serao chamadas pontos 
exteriores e representadas por asteriscos. Essas sao observagoes destoantes das demais e 
podem ou nao ser o que chamamos de outliers ou valores atipicos. 

0 box plot da uma ideia da posigao, dispersao, assimetria, caudas e dados discrepantes. 
A posigao central e dada pela mediana e a dispersao por d q . As posigoes relativas de q 1( q 2 , q 3 
dao uma nogao da assimetria da distribuigao. Os comprimentos das caudas sao dados pelas 
linhas que vao do retangulo aos valores remotos e pelos valores atipicos. 

Exemplo 3.8 Retomemos o exemplo dos 15 maiores municipios do Brasil, ordenados 
pelas populagoes. Usando o procedimento do Problema 17 (veja tambem o Problema 18), 
obtemos q 3 = 105,7, q 2 = 135,8, q 3 = 208,6. 0 diagrama para os cinco numeros x (1) , q 1( 
q 2 = md, q 3 , x (15) esta na Figura 3.5 abaixo. 

Figura 3.5: Esquema dos cinco nume¬ 
ros para o Exemplo 3.8. 



15 

md 

135,8 


q 

105,7 208,6 


E 

84,7 988,8 
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Temos que 


LI = q, - (l,5)d q = 105,7 - (1,5) (102,9) = -48,7, 

LS = q 3 + (l,5)d q = 208,6 + (1,5) (102,9) = 362,9. 

Entao, as cidades com populates acima de 3.629.000 habitantes sao pontos 
exteriores, ou seja, Rio de Janeiro e Sao Paulo. O box plot correspondente esta na 
Figura 3.6. Vemos que os dados tern uma distribuigao assimetrica a direita, com 13 
valores concentrados entre 80 e 230 e duas observagoes discrepantes, bastante afas- 
tadas do corpo principal dos dados. 


Figura 3.6: Box plot para os quinze maiores 
municfpios do Brasil. 


1.000 - 

> 


* Sao Paulo 


600 

> 


* Rio de Janeiro 


240 


180 

140 


100 

80 


| Salvador 


Sao Gon?alo 


Do ponto de vista estatfstico, urn outlier pode ser produto de urn erro de observa- 
gao ou de arredondamento. No exemplo acima, as populagoes de Sao Paulo e Rio de 
Janeiro nao sao outliers neste sentido, pois elas representam dois valores realmente 
muito diferentes dos demais. Daf, usarmos o nome pontos (ou valores) exteriores. 
Contudo, na pratica, estas duas denominagoes sao frequentemente usadas com o mes- 
mo significado: observagoes fora de lugar, discrepantes ou atipicas. 

A Figura 3.7 mostra o box plot para as populagoes dos trinta municfpios brasilei- 
ros, feito com o M initab. 
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Figura 3.7" Box plot com Minitab. 



A justificativa para usarmos os limites acima, LI = q 1 - (l,5)d q e LS = q 3 + (l,5)d qi 
para definir as observagoes atfpicas e a seguinte: considere uma curva normal com media 
zero e, portanto, com mediana zero. E facil verificar (veja o Capitulo 7 e Tabela III) que 
q 1 = -0,6745, q 2 = 0, q 3 = 0,6745 e portanto d q = 1,349. Segue-se que os limites sao 
LI = -2,698 e LS = 2,698. A area entre estes dois valores, embaixo da curva normal, e 
0,993, ou seja, 99,3% da distribuigao esta entre estes dois valores. Isto e, para dados com 
uma distribuigao normal, os pontos exteriores constituirao cerca de 0,7% da distri¬ 
buigao. Veja a Figura 3.8. 


Figura 3.8: Area sob a curva normal entre LI e LS. 



11. Construa o box plot para os dados do Exemplo 2.3, Capitulo 2. O que voce pode con- 
cluir a respeito da distribuigao? 

12. Refaga a questao anterior com os dados do Problema 3 deste capitulo. 

13. Faga urn box plot para o Problema 10. Comente sobre a simetria, caudas e presenqa de 
valores atfpicos. 
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3.5 Graficos de Simetria 

Os quantis podem ser uteis para se verificar se a distribuigao dos dados e simetrica 
(ou aproximadamente simetrica). 

Se um conjunto de observagoes for perfeitamente simetrico devemos ter 

q(0,5) - x (i) =x (n + 1 _. ) - q(0,5), (3.14) 

onde i = 1, 2, ..., n/2, se n for par e i = 1, 2, ..., (n + l)/2, se n for impar. 

Pela relagao (3.14), vemos que, se os quantis da direita estao mais afastados da mediana, 
do que os da esquerda, os dados serao assimetricos a direita. Se ocorrer o contrario, os 
dados serao assi metricos a esquerda. A Figura 3.9 ilustra essas duas situagoes. 


Figura 3.9: Distribuicoes assimetricas. 



Para os dados do Exemplo 3.8, vemos que as observagoes sao assimetricas a direita. Em 
geral, esse tipo de situagao ocorre com dados positivos. 

Podemos fazer um grafico de simetria, usando a identidade (3.14). Chamando de 
Uj o primeiro membro e de y o segundo membra, fazendo-se um grafico cartesiano, 
com os u/s como abscissas e os v.'s como ordenadas, se os dados forem aproximada¬ 
mente si metricos, os pares (u i( v.) estarao dispersos ao redor da reta v = u. 

Exemplo 3.9 Considere os dados que, dispostos em ordem crescente, ficam represen- 
tados no eixo real como na Figura 3.10. 


Figura 3.10: Dados aproximadamente simetricos. 


0 


5 



10 



15 

x (l) 

X (2) 

X (3) 

X (4) 

X (5) 

X (6) 

X (7) 

X (8) 

X (9) 

0,5 

2,3 

4,0 

6,4 

8,0 

9,8 

12,0 

13,5 

15,3 


Esses dados sao aproximadamente simetricos, pois como q 2 = 8, u. = q 2 - x (i) , y = x (n+1 _., - q 2 , 
teremos: 

u 3 = 8,0 - 0,5 = 7,5, \/ 1 = 15,3 - 8,0 = 7,3, 

u 2 = 8,0 - 2,3 = 5,7, v 2 = 13,5 - 8,0 = 5,5, 

u 3 = 8,0 - 4,0 = 4,0, v 3 = 12,0 - 8,0 = 4,0, 

u 4 = 8,0 - 6,4 = 1,6, v 4 = 9,8 - 8,0 = 1,8. 
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A Figura 3.11 mostra o grafico de simetria para as populates dos trinta municipios 
do Brasil. Vemos que a maioria dos pontos estao acima da reta v = u, mostrando a 
assimetria a direita da distribuigao dos valores. Nessa figura, vemos destacados os 
pontos correspondentes a Rio de Janeiro e Sao Paulo. 


Figura 3.1 Grafico de simetria para oCD-Municfpios. 



3.6 Transformacoes 

* 

Varios procedimentos estatfsticos sao baseados na suposigao de que os dados pro¬ 
ven de uma distribuigao normal (em forma de sino) ou entao mais ou menos simetri- 
ca. Mas, em muitas situagoes de interesse pratico, a distri buigao dos dados da amostra 
e assimetrica e pode confer valores atfpicos, como vimos em exemplos anteriores. 

Se quisermos utilizar tais procedimentos, o que se propoe e efetuar uma transfor- 
magao das observagoes, de modo a se obter uma distribuigao mais simetrica e proxima 
da normal. Uma familia de transformagoes frequentemente utilizada e 


X (P) 


x p , se p > 0 
^h(x), se p = 0 
-x p , se p < 0. 


Normalmente, o que se faz e experimentar valores de p na sequencia 


(3.15) 


... , -3, -2, -1, - 1/2, - 1/3, - 1/4, 0, 1/4, 1/3, 1/2, 1, 2, 3, ... 


e para cada valor de p obtemos graficos apropriados (histogramas, desenhos esquematicos etc.) 
para os dados originais e transformados, de modo a escolhermos o valor mais adequado de p. 

Vimos que, para dados positivos, a distribuigao dos dados e usualmente assimetrica a 
direita. Para essas distribuigoes, a transformagao acima com 0 < p < 1 e apropriada, pois 
valores grandes de x decrescem mais, relativamente a valores pequenos. Para distri buigoes 
assimetricas a esquerda, tome p > 1. 
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Exemplo 3.10. Consideremos os dados das populates do CD-M unicipios e tomemos 
alguns valores de p: 0, 1/4, 1/3, 1/2. Na Figura 3.12 temos os histogramas para os 
dados transformados e, na Figura 3.13, os respectivos box plots. Vemos que p = 0 
(transformagao logarftmica) e p = 1/3 (transformagao raiz cubica) fornecem distribui- 
goes mais proximas de uma distribuigao simetrica. 


Figura 3.12: Histogramas para os dados transformados. CD-Municfpios. 



Figura 3.13: Box plots para os dados transfor¬ 
mados. CD-Munidpios. SPlus. 

















54 


(APITULO 3 — MEDIDAS-RESUMO 


3.7 Exemplos Computacionais 

Vamos retomar os exemplos estudados no Capftulo 2 e complementar as analises feitas 
com as tecnicas aprendidas neste capftulo. 

Exemplo 2.10. (continuagao) Aqui temos as notas em Estatfstica de 100 alunos de Eco- 
nomia. Temos no Quadro 3.3 as principals medidas-resumo desse conjunto de dados, 
fornecidas pelo comando describe do Minitab. 

Quadro 3.3 Medidas descritivas para o CD-Notas. Minitab. 


Descriptive Statistics 


Variable 

N 

Mean 

Median 

Trmean 

StDev 

SE Mean 

Cl 

100 

5.925 

6.000 

5.911 

1.812 

0.181 

Variable 

Min 

Max 

Q1 

Q3 



Cl 

1.500 

10.000 

4.625 

7.375 




Vemos, por exemplo, que q 2 = 4,625, q 2 = 6,000 e q 3 = 7,375 e, portanto, d q = q 3 - q 2 
= 2,75. O desvio padrao e dp = 1,812. Vimos que a distribuigao das notas e razoavel- 
mente simetrica, nao havendo valores atfpicos, o que e confirmado pelo box plot da 
Figura 3.14. 



O grafico de simetria esta na Figura 3.15, mostrando tambem a reta u = v. Note que 
os pontos dispoem-se ao redor da reta, estando varios deles sobre ela, indicando a 
quase-simetria dos dados. Deverfamos ter 50 pontos no grafico, mas ha varios pares 
(u i( V|) repetidos. 
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Figura 3.15: Grafico de simetria para o CD-Notas. 



Exemplo 2.11. (continuagao) Os dados de temperatura (diarios) na cidade de Sao 
Paulo, no perfodo considerado, sao ligeiramente assimetricos a esquerda. 0 comando 
summary do SPIus fornece as medidas descritivas do Quadro 3.4. Note que o M initab 
fornece mais informagoes que o SPIus por meio desses comandos. 


Quadro 3.4. Medidas descritivas para temperaturas. SPIus. 


> summary (temp) 





Min. 1st Qu. 

Median 

Mean 

3rd Qu. 

Max. 

12.3 16 

17.7 

17.22 

18.6 

21 


Temos, por exemplo, q : = 16, q 2 = 17,7 e q 3 = 18,6. A amplitude amostral e x (n) - x (1) = 8,7 
e a distancia interquartil e d q = 2,6. 0 box plot esta na Figura 3.16, que mostra a assimetria. 
Nao ha valores atipicos. 

Figura 3.16: Box plot para as temperaturas de Sao Paulo. 

CD-Poluigao. SPlus. 
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No grafico de simetria na Figura 3.17, todos os pontos estao abaixo da reta u = v, 
mostrando que u i > v., para todo i = 1, 2, 60, ou seja, as distances da mediana aos 

quantis inferiores sao maiores do que as distances dos quantis superiores a mediana, 
indicando que a distribuigao das observagoes e assimetrica a esquerda. 


Figura 3.17: Grafico de simetria para as temperaturas 
de Sao Paulo. CD-Poluipao. 



3.8 Problemas e Complementos 

14. Mostreque: 

(a) Z(x, - x) =0 

i =1 

(b) t(x - x ) 2 = Jx 2 -nx 2 = ix 2 --^ 2 

i= i ' i-i 1 i-i 1 n 

k k 

(c) Zn,(x. - x ) 2 = Xn xf- nx 2 

i=1 i=1 

(d) X fix - x ) 2 =Z f,x 2 - x 2 

i=i 1 1 i=i ' 

15. Usando os resultados da questao anterior, calcule as variancias dos Problemas 1 e 2 
deste capitulo. 

16. Os dados abaixo representam as vendas semanais, em classes de salarios mmimos, de 
vendedores de generos alimentfcios: 
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Vendas semanais 

N e de vendedores 

301-35 

2 

351-40 

10 

401-45 

18 

451-50 

50 

501-55 

70 

551-60 

30 

601-65 

18 

651-70 

2 


(a) Faga o histograma das observagoes. 

(b) Calcule a media da amostra, X. 

(c) Calcule o desvio padrao da amostra, S. 

(d) Qual a porcentagem das observagoes compreendidas entre X- 2s e X + 2s? 

(e) Calcule a mediana. 


17. Quantis. Para calcular os quantis de uma sequencia de valores de uma variavel X pode- 
rfamos usar a fungao de distribuigao acumulada ou empfrica, definida no Problema 1 7 
do Capitulo 2. Essa fungao fornece, para cada numero real X, a proporgao das observa¬ 
goes menores ou iguais a X. No Exemplo 3.5, temos 


0 , 

se 

x < 

2 

1/9, 

se 

2 

x < 3 

2/9, 

se 

3 s: 

x < 5 

3/9, 

se 

5 s: 

x < 7 

4/9, 

se 

7 « 

x < 8 

5/9, 

se 

8 

x < 10 

6/9, 

se 

10 x < 11 

7/9, 

se 

11 « x < 12 

8/9, 

se 

12 ^ x < 15 

1 , 

se 

x & 

15. 


O grafico de F e (x) esta na Figura 3.18. Note que nao ha nenhum valor deXtal que F e (x) =0,5 
e F e (2) =1/9, F e (3) -2/9 ,..., F e ( 15) =1, ou seja, podemos escreverde modo geral 

F e (x (i) ) = j- , i = 1, 2.9. (3.17) 

9 

Em particular, F e (md) =F (x (5) ) = F e (8) =5/9 =0,556. Portanto, ou mudamos nossa definigao 
de mediana, ou F e (.) nao pode ser usada para definir precisamente mediana ou, em geral, 
urn quantil q(p). 
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Figura 3.18: Funcoes de distribui?ao empirica (F e ) e f.d.e. alisada (F e ) para o Exemplo 3.5. 



Mas vejamos que F e (-) pode ser a base para tal definigao. Considere "alisaC' ou 
"suavizar" F e (-), como feito na Figura 3.18, de modo a obter uma curva continuaF e (x), 
que passa pelos pontos (x (i) , p.), onde 

Pi =jjL §^- i=1 - 2 . 9 ' (3 ' 18) 

Observe que 0 < p x < 1/9, 1/9 < p 2 < 2/9 etc. Com esse procedimento, notamos que 


F e (x (1) ) = 1/18. F e (x (5) ) = 9/18 = 0,5. F e (x (9) ) = 17/18, 


ou seja, podemos escrever 


F~(x, n ) = i =1,2.n, 


n 


(3.19) 
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sendo que no nosso caso n = 9. Com essa modificagao, obtemos que F e (md) =F e (8) = 
0,5, e para cada p, 0 < p < 1, podemos obter de modo unfvoco o quantil q(p), tomando- 
se a fungao inversa F e Mp). Ou seja, considere uma reta horizontal passando por p no 
eixo das ordenadas, ate encontrar a curva contfnua e depois baixe uma reta vertical ate 
encontrar q(p) no eixo das abscissas. 

Uma maneira equivalente de proceder nos leva a seguinte definigao para calcu- 
lar q(p), para qualquer p, 0 < p < 1. 

Definigao. 0 p-quantil e definido por 


q(p) = 


x (i)- 

se p = p, = 1 n 0,5 , i = 1, 2, ..., n 

f i) X <il +f i X (i + D- 

se Pi < P < P i+1 

X (D- 

se p < p 2 

L X (n )' 

sep >p n , 


onde f. = 


(P - R) 
(P i+ i - R)' 


Notamos, entao, que se p coincidir com a proporgao p |( o quantil sera a i-esima 
observagao, x (j) . Se Pj < p < p i+1 , o quantil estara no segmento de reta que une (p |( x (i) ) 
e (p, +1 , x (i +1) ). De fato, a reta passando por (p |f x (i) ) e (p, q(p)) e 


q(p) - x (i) 


x ( i+ i»- x (i) 

P i+ i - Pi 


(P - R). 


Exemplo 3.5. (continuagao) Usando a definigao obtemos: 

q(0,l) = (0,6)x (1) + (0,4)x (2) = (0,6)(2) + (0,4)(3) = 2,4; 
q (0,2) = (0,7)x (2) + (0,3)x (3) = (0,7)(3) + (0,3)(5) = 3,6; 
q (0,25) = (0,25)x (2) + 0,75x (3) = 4,5; 
q (0,5) = x (5) = 8; 

q(0,75) = (0,75)x (?) + (0,25)x (8) = (0,75)(11) + (0,25)(12) = 11,25. 


1 8. Considere o CD-Municipios e tome somente os 15 maiores, relativamente a sua popula- 
gao. Calcule q(0, 1), q(0, 2), q 3 , q 2 , q 3 . 
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19. O numero de divorcios na cidade, de acordo com a duragao do casamento, esta 
representado na tabela abaixo. 

(a) Qual a duragao media dos casamentos? E a mediana? 

(b) Encontre a variancia e o desvio padrao da duragao dos casamentos. 

(c) Construa o histograma da distribuigao. 

(d) Encontre o 1® e o 9® decis. 

(e) Qual o intervalo interquantil? 


Anos de casamento 

N s de divorcios 

01- 6 

2.800 

6 h 12 

1.400 

121-18 

600 

181-24 

150 

241— 30 

50 


20. O Departamento Pessoal de uma certa firma fez um levantamento dos salarios dos 120 
funcionarios do setor administrative, obtendo os resultados (em salarios mfnimos) da 
tabela abaixo. 

(a) Esboce o histograma correspondente. 

(b) Calcule a media, a variancia e o desvio padrao. 

(c) Calcule o 1® quartil e a mediana. 


Faixa salarial 

Frequencia relativa 

Oh- 2 

0,25 

2 h 4 

0,40 

41- 6 

0,20 

61— 10 

0,15 


(d) Se for concedido um aumento de 100% para todos os 120 funcionarios, havera 
alteragao na media? E na variancia? Justifique sua resposta. 

(e) Se for concedido um abono de dois salarios mfnimos para todos os 120 funcionarios, 
havera alteragao na media? E na variancia? E na mediana? Justifique sua resposta. 

21.0 que acontece com a mediana, a media e o desvio padrao de uma serie de dados 
quando: 

(a) cada observagao e multiplicada por 2? 

(b) soma-se 10 a cada observagao? 

(c) subtrai-se a media geral X de cada observagao? 

(d) de cada observagao subtrai-se X e divide-se pelo desvio padrao dp(x)? 
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22. Na companhia A, a media dos salarios e 10.000 unidades e o 3 s quartil e 5.000. 

(a) Se voce se apresentasse como candidato a funcionario nessa firma e se o seu 
salario fosse escolhido ao acaso entre todos os possiveis salarios, o que seria mais 
provavel: ganhar mais ou menos que 5.000 unidades? 

(b) Suponha que na companhia B a media dos salarios seja 7.000 unidades, a variancia 
praticamente zero e o salario tambem seja escolhido ao acaso. Em qual companhia 
voce se apresentaria para procurar emprego? 

23. Estamos interessados em estudar a idade dos 12.325 funcionarios da Cia. Distribuidora 
de Leite Teco, e isso sera feito por meio de uma amostra. Para determinar que tamanho 
devera ter essa amostra, foi colhida uma amostra-piloto. As idades observadasforam: 42, 
35, 27, 21, 55, 18, 27, 30, 21, 24. 

(a) Determine as medidas descritivas dos dados que voce conhece. 

(b) Qual dessas medidas voce acredita que sera a mais importante para julgar o tama¬ 
nho final da amostra? Por que? 

24. Estudando-se o consumo diario de leite, verificou-se que, em certa regiao, 20% das familias 
consomem ate um litro, 50% consomem entre um e dois litros, 20% consomem entre dois e tres 
litros e o restante consome entre tres e cinco litros. Para a variavel em estudo: 

(a) Escreva as informagoes acima na forma de uma tabela de frequencies. 

(b) Construa o histograma. 

(c) Calcule a media e a mediana. 

(d) Calcule a variancia e o desvio padrao. 

(e) Qual o valor do l fi quartil? 

25. A distribuigao de frequencies do salario anual dos moradores do bairro A que tern algu- 
ma forma de rendimento e apresentada na tabela abaixo: 


Faixa salarial 
(x 10 salarios mfnimos) 

Frequencia 

01— 2 

10.000 

2 b- 4 

3.900 

41— 6 

2.000 

61- 8 

1.100 

81- 10 

800 

101- 12 

700 

121- 14 

2.000 

Total 

20.500 


(a) Construa um histograma da distribuigao. 

(b) Qual a media e o desvio padrao da variavel salario? 

(c) O bairro B apresenta, para a mesma variavel, uma media de 7,2 e um desvio padrao 
de 15,1. Em qual dos bairros a populagao e mais homogenea quanto a renda? 

(d) Construa a fungao de distribuigao acumulada e determine qual a faixa salarial dos 
10% mais ricos da populagao do bairro. 

(e) Qual a "riqueza total" dos moradores do bairro? 
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26. Dado o histograma abaixo, calcular a media, a variancia, a moda, a mediana e o I s 
quartil. 


30% 



27. Em uma granja foi observada a distribuigao dos frangos em relagao ao peso, que era 
a seguinte: 


Peso (gramas) 

n i 

960 h- 980 

60 

980 K 1.000 

160 

1.0001-1.020 

280 

1.0201-1.040 

260 

1.0401-1.060 

160 

1.0601-1.080 

80 


(a) Qual a media da distribuigao? 

(b) Qual a variancia da distribuigao? 

(c) Construa o histograma. 

(d) Queremos dividir os frangos em quatro categorias, em relagao ao peso, de modo que: 

— os 20% mais leves sejam da categoria D; 

— os 30% seguintes sejam da categoria C; 

— os 30% seguintes sejam da categoria B; 

— os 20% seguintes (ou seja, os 20% mais pesados) sejam da categoria A. 

Quais os limites de peso entre as categorias A, B, C e D ? 

(e) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios 
padroes abaixo da media para receberem ragao reforgada, e tambem separar os 
animais com peso superior a urn e meio desvio padrao acima da media para usa-los 
como reprodutores. 

Qual a porcentagem de animais que serao separados em cada caso? 

28. A idade media dos candidatos a um determinado curso de aperfeigoamento sempre foi 
baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as 
idades, decidiu-se fazer uma campanha de divulgagao. Para se verificar se a campanha 
foi ou nao eficiente, fez-se um levantamento da idade dos candidatos a ultima promogao, 
e os resultados estao na tabela a seguir. 
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Idade 

Frequencia 

Porcentagem 

18 1-20 

18 

36 

201-22 

12 

24 

221-26 

10 

20 

261-30 

8 

16 

301-36 

2 

4 

Total 

50 

100 


(a) Baseando-se nesses resultados, voce diria que a campanha produziu algum efeito 
(isto e, aumentou a idade media)? 

(b) Um outro pesquisador decidiu usar a seguinte regra: se a diferenga X- 22 fosse maior 
que o valor 2dp(X )/Vn, entao a campanha teria surtido efeito. Qual a conclusao dele, 
baseada nos dados? 

(c) Faga o histograma da distribuigao. 

29. Para se estudar o desempenho de duas corretoras de agoes, selecionou-se de cada 
uma delas amostras aleatorias das agoes negociadas. Para cada agao selecionada, 
computou-se a porcentagem de lucro apresentada durante um perlodo fixado de tempo. 
Os dados estao a seguir. 


Corretora A 


45 

60 

54 

62 

55 

70 

38 

48 

64 

55 

56 

55 

54 

59 

48 

65 

55 

60 


Corretora B 


57 

55 

58 

50 

52 

59 

59 

55 

56 

61 

52 

53 

57 

57 

50 

55 

58 

54 

59 

51 

56 


Que tipo de informagao revelam esses dados? (Sugestao: use a analise proposta nas 
Segoes 3.3 e 3.4.) 

30. Para verificar a homogeneidade das duas populagoes do problema anterior, um esta- 

tistico sugeriu que se usasse o quociente F = y ' mas nao disse qual decisao 

tomar baseado nesse valor. Que regra de decisao voce adotaria para dizer se sao 
homogeneas ou nao (var(X/A) = variancia de X, para a corretora A; X = % 
de lucro)? 

31. Faga um desenho esquematico (box plot) para os dados da corretora A e um para os 
dados da corretora B. Compare os dois conjuntos de dados por meio desses desenhos. 

32. Para decidir se o desempenho das duas corretoras do exercicio 29 sao semelhantes ou 
nao, adotou-se o seguinte teste: sejam 


t = - 


x A - x B c - 2 _ (n A -1) var(X/A) + (n B - l)var(X/B) 
SU l/n A + l/n B ' n A +n B - 2 























64 


(APITULO 3 — MEDIDAS-RESUMO 


Caso 111 < 2, os desempenhos sao semelhantes, caso contrario, sao diferentes. Qual seria 
a sua conclusao? Aqui, n A e o numero de agoes selecionadas da corretora A e nomencla¬ 
ture analoga para n B . 

33. Um orgao do governo do estado esta interessado em determinar padroes sobre o investi- 
mento em educagao, por habitante, realizado pelas prefeituras. De um levantamento de 
dez cidades, foram obtidos os valores (codificados) da tabela abaixo: 


Cidade 

A 

B 

C 

D 

E 

F 

G 

H 

1 

J 

Investimento 

20 

16 

14 

8 

19 

15 

14 

16 

19 

18 


Nesse caso, sera considerado como investimento basico a media final das observagoes, cal- 
culada da seguinte maneira: 

1. Obtem-se uma media inicial. 

2. Eliminam-se do conjunto aquelas observagoes que forem superiores a media inicial 
mais duas vezes o desvio padrao, ou inferiores a media inicial menos duas vezes o 
desvio padrao. 

3. Calcula-se a media final com o novo conjunto de observagoes. 

Qual o investimento basico que voce daria como resposta? 

Observagao: O procedimento do item 2 tern a finalidade de eliminar do conjunto a cidade 
cujo investimento e muito diferente dos demais. 

34. Estudando-se a distribuigao das idades dos funcionarios de duas repartigoes publicas, 
obtiveram-se algumas medidas que estao no quadro abaixo. Esboce o histograma alisa- 
do das duas distributes, indicando nele as medidas descritas no quadro. Comente as 
principals diferengas entre os dois histogramas. 


Repartigao 

Mfnimo 

1® Quartil 

Mediana 

Media 

3 s Quartil 

Maximo 

dp 

A 

18 

27 

33 

33 

39 

48 

5 

B 

18 

23 

32 

33 

42 

48 

10 


35. Decidiu-se investigar a distribuigao dos profissionais com nivel universitario em duas 
regioes, A e B. As informagoes pertinentes foram obtidas e encontram-se no quadro 
abaixo, expressas em salarios minimos. Esboce a distribuigao (histograma alisado) dos 
salarios de cada regiao, indicando no grafico as medidas apresentadas no quadro. 
Faga tambem uma descrigao rapida das principals diferengas observadas nos graficos. 


Regiao 

Media 

dp 

Mediana 

Mod a 


q 3 

x d) 

X (n) 

A 

20,00 

4,00 

20,32 

20,15 

17,32 

22,68 

8,00 

32,00 

B 

20,00 

6,00 

18,00 

17,00 

16,00 

24,00 

14,00 

42,00 
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36. Construa o desenho esquematico para os dados do Problema 6, do Capitulo 2. Obtenha 
conclusoes a respeito da distribuigao, a partir desse desenho. 

37. Usando os dados da variavel qualitativa regiao de procedencia, da Tabela 2.1, transforme-a 
na variavel quantitativa X, definida do seguinte modo: 

^ __ 11, se a regiao de procedencia for capital; 

[0, se a regiao de procedencia for interior ou outra. 

(a) Calcule Xevar(X). 

(b) Qual a interpretagao de X? 

(c) Construa um histogranna para X. 

38. No Problema 9, do Capitulo 2, temos os resultados de 25 funcionarios em varios exames 
a que se submeteram. Sabe-se agora que os criterios adotados em cada exame nao sao 
comparaveis, por isso decidiu-se usar o desempenho relativo em cada exame. Essa medida 
sera obtida do seguinte modo: 

(I) Para cada exame serao calculados a media Xe o desvio padrao dp(X). 

(II) A nota X de cada aluno sera padronizada do seguinte modo: 

7 _ X - X 
dp(X)- 

(a) Interprete o significado de Z. 

(b) Calcule as notas padronizadas dos funcionarios para o exame de Estatistica. 

(c) Com os resultados obtidos em (b), calcule z e dp(Z). 

(d) Se alguma das notas padronizadas estiver acima de 2dp(Z) ou abaixo de -2dp(Z), 
esse funcionario deve ser considerado um caso atipico. Existe algum nessa situagao? 

(e) O funcionario 1 obteve 9,0 em Direito, em Estatistica e em Politico. Em que disciplina 
o seu desempenho relativo foi melhor? 

39. Media aparada. Se 0 < a < 1, uma media aparada a 100a% e obtida eliminando 
I00a% das menores observagoes e 100a% das maiores observagoes e calculando-se 
a media aritmetica das restantes. Por exemplo, se tivermos 10 observagoes ordenadas 
X(i) <X ( 2 ) < ■ ■ ■ <X (io)' a m edia aparada a 10% e 

7(0,10)= X(2l+X(3)+ "' +X(9) 

8 

Se a = 0,25, X(0,25) e chamada meia-media. 

Calcule a media aparada a 10% e 25% para os dados de salarios da Tabela 2.1. 

40. Coeficiente de variaqao. Como vimos na seqao 3.3, o desvio padrao e bastante afetado 
pela magnitude dos dados, ou seja, ele nao e uma medida resistente. Se quisermos 
comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de 
variaqao, que e definido como a razao entre o desvio padrao, S, e a media amostral e 
usualmente expresso em porcentagem: 

cv = 4 100%. 
x 
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Calcule o coeficiente de variagao para as regioes A e B e do Problema 35 e comente o 
resultado. 

41. Desvio absoluto mediano. Esta e uma medida de dispersao dos dados x r x n , definida por: 

dam = med lsjsn |x. - med 1>#i<sn (x i )|. 

Ou seja, calculamos a mediana dos dados, depois os desvios absolutos dos dados em 
relagao a mediana e, finalmente, a mediana desses desvios absolutos. Vamos considerar os 
dados abaixo, extraidos de Graedel e Kleiner (1985) e que representam velocidades do 
vento no aeroporto de Philadelphia (EUA) para os primeiros 15 dias de dezembro de 1974. 
Vemos que ha uma observagao muito diferente das demais (61,1), mas que representa urn 
dado real: no dia 2 de dezembro houve uma tempestade forte com chuva e vento. 


22,2 

61,1 

13,0 

27,8 

22,2 

7,4 

7,4 

7,4 

20,4 

20,4 

20,4 

11,1 

13,0 

7,4 

14,8 


Calculando-se as medidas de posigao e dispersao estudadas, obtemos: 

x = 18,4, x(0,20) = 15,8; 
md = 14,8, q x = 8,3, q 3 = 21,8; 
d q = 14,8, dam = 7,4, dpt X) = 13,5. 

Observemos que, retirando-se o valor atfpico 61,1, a media passa a ser 15,3 e o desvio 
padrao 6,8, valor este mais proximo do dam. 

42. Calcule o desvio absoluto mediano para as populagoes do CD-Brasil. 

43. Calcule as principals medidas de posigao e dispersao (incluindo a media aparada e o 
dam) para: 

(a) variavel CO no CD-Poluigao; 

(b) salarios de mecanicos, CD-Salarios; e 

(c) variavel prego, CD-Vetculos. 

44. Construa os histogramas, ramo-e-folhas e desenhos esquematicos para as variaveis do 
problema anterior. 

45. Faga urn grafico de quantis e urn de simetria para os dados do Problema 3. Os dados sao 
simetricos? Comente. 

46. Para o CD-Temperaturas e para a variavel temperatura de Ubatuba, obtenha um grafico de 
quantis e um grafico de simetria. Os dados sao simetricos? Comente. 

47.0 histograma da uma ideia de como e a verdadeira densidade de frequencies da populagao da 
qual os dados foram selecionados. Suponha que tenhamos o histograma da figura abaixo e 
que a curva suave seja a verdadeira densidade populacional desconhecida. 



3.8 PROBLEMAS E COMPLEMENTOS 


67 



Considere as distancias entre o histograma e a densidade. Suponha que queiramos 
determinar a amplitude de classe A do histograma de modo a minimizar a maior distan- 
cia (em valor absoluto). Freedman e Diaconis (1981) mostraram que o valor de A e 
dado aproximadamente por 

A = 1.349S (—yj—-j U3 > 

em que S e urn estimador robusto do desvio padrao populacional. Por exemplo, podemos 
tomar 


S~= 


1,349' 


em que d q =q 3 - q x e a distancia interquartil, devido ao fato de, numa distribuigao norma 
d q = 1, 349 a, sendo o oo desvio padrao. Segue-se que A e dado por 


A = d q 



Usando esse resultado, o numero de classes a considerar num histograma e obtido 

• J (^(n) " X(ij) 

por meio de —_-_ . 

A 

48. Use o problema anterior para construir histogramas para: 

(a) variavel umid (umidade) do CD-Poluigao; 

(b) variavel salario dos professores do CD-Salarios; e 

(c) a temperatura de Cananeia, do CD-Temperaturas. 



























Capitulo A 


Analise Bidimensional 


4.1 Introducao 

Ate agora vimos como organizar e resumir informagoes pertinentes a uma unica 
variavel (ou a um conjunto de dados), mas freqiientemente estamos interessados em 
analisar o comportamento conjunto de duas ou mais variaveis aleatorias. Os dados apa- 
recem na forma de uma matriz, usualmente com as colunas indicando as variaveis e as 
linhas os individuos (ou elementos). A Tabela 4.1 mostra a notagao de uma matriz com 
p variaveis X x , X 2 , X p en individuos, totalizando np dados. A Tabela 2.1, com os 
dados hipoteticos da Companhia MB, e uma ilustragao numerica de uma matriz 36 x 7. 

0 principal objetivo das analises nessa situagao e explorar relagoes (similaridades) 
entre as colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma 
variavel que estudamos, a distribuigao conjunta das frequences sera um instrumento 
poderoso para a compreensao do comportamento dos dados. 

Neste capitulo iremos nos deter no caso de duas variaveis ou dois conjuntos de 
dados. Na segao 4.8 daremos dois exemplos do caso de tres variaveis. 


Tabela 4.1: Tabela de dados. 


Indivfduo 

Variavel 

x, 

x, 


X i 


X 

D 

1 

Xn 

Xn 


X H 


Xip 

2 

X 2 i 

^22 


X 2j 


X2p 

i 

Xi! 

X j 2 


Xii 


Xip 

n 

X„1 

X n 2 


x„j 


Xnp 


Em algumas situagoes, podemos ter dois (ou mais) conjuntos de dados provenientes da 
observagao da mesma variavel. Por exemplo, podemos ter um conjunto de dados {x 1( ..., x n }, 
que sao as temperaturas na cidade A, durante n meses, e outro conjunto de dados {y 1( ..., y n }, 
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que sao as temperaturas da cidade B, nos mesmos meses. Para efeito de analise, podemos 
considerar que o primeiro conjunto sao observagoes da variavel X: temperatura na cidade A, 
enquanto o segundo conjunto sao observagoes da variavel Y: temperatura na cidade B. Este 
e o caso do CD-Temperaturas. Tambem poderfamos usar uma variavel X para indicar a 
temperatura e outra variavel, L, para indicar se a observagao pertence a regiao A ou B. Na 
Tabela 2.1 podemos estar interessados em comparar os salarios dos casados e solteiros. Uma 
reordenagao dos dados poderia colocar os casados nas primeiras posigoes e os solteiros nas 
ultimas, e nosso objetivo passaria a ser comparar, na coluna de salarios (variavel S), o compor- 
tamento de S na parte superior com a inferior. A escolha da apresentagao de urn ou outro modo 
sera ditada principalmente pelo interesse e tecnicas de analise a disposigao do pesquisador. 

No CD-Brasil temos cinco variaveis: superficie, populagao urbana, rural e total e densi- 
dade populacional. No CD-Poluigao temos quatro variaveis: quantidade de monoxido de 
carbono, ozonio, temperatura do ar e umidade relativa do ar. 

Quando consideramos duas variaveis (ou dois conjuntos de dados), podemos ter 
tres situagoes: 

(a) as duas variaveis sao qualitativas; 

(b) as duas variaveis sao quantitativas; e 

(c) uma variavel e qualitativa e outra e quantitativa. 

As tecnicas de analise de dados nas tres situagoes sao diferentes. Quando as varia¬ 
veis sao qualitativas, os dados sao resumidos em tabelas de dupla entrada (ou de 
contingency), onde aparecerao as frequences absolutas ou contagens de individuos 
que pertencem simultaneamente a categorias de uma e outra variavel. Quando as duas 
variaveis sao quantitativas, as observagoes sao provenientes de mensuragoes, e tecni¬ 
cas como graficos de dispersao ou de quantis sao apropriadas. Quando temos uma 
variavel qualitativa e outra quantitativa, em geral analisamos o que acontece com a variavel 
quantitativa quando os dados sao categorizados de acordo com os diversos atributos 
da variavel qualitativa. Mas podemos ter tambem o caso de duas variaveis quantitati¬ 
vas agrupadas em classes. Por exemplo, podemos querer analisar a associagao entre 
renda e consumo de certo numero de familias e, para isso, agrupamos as famflias em 
classes de rendas e classes de consumo. Desse modo, recafmos novamente numa tabe¬ 
la de dupla entrada. 

Contudo, em todas as situagoes, o objetivo e encontrar as possfveis relagoes ou 
associagoes entre as duas variaveis. Essas relagoes podem ser detectadas por meio de 
metodos graficos e medidas numericas. Para efeitos praticos (e a razao ficara mais clara 
apos o estudo de probabilidades), iremos entender a existencia de associagao como a 
mudanga de opiniao sobre o comportamento de uma variavel na presenga ou nao de 
informagao sobre a segunda variavel. 11ustrando: existe relagao entre a altura de pessoas 
e o sexo (homem ou mulher) em dada comunidade? Pode-se fazer uma primeira pergunta: 
qual a frequencia esperada de uma pessoa dessa populagao ter, digamos, mais de 170 cm 
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de altura? E tambem uma segunda: qual a frequencia esperada de uma mulher (ou ho- 
mem) ter mais de 170 cm de altura? Se a resposta para as duas perguntas for a mesma, 
diriamos que nao ha associagao entre as variaveis altura e sexo. Porem, se as respostas 
forem diferentes, isso significa uma provavel associagao, e devemos incorporar esse 
conhecimento para melhorar o entendimento sobre os comportamentos das variaveis. 
No exemplo em questao, voce acha que existe associagao entre as variaveis? 

4.2 Variaveis Qualitativas 

Para ilustrar o tipo de analise, consideremos o exemplo a seguir. 

Exemplo 4.1. Suponha que queiramos analisar o comportamento conjunto das varia¬ 
veis Y: grau de instrugao e V: regiao de procedencia, cujas observagoes estao contidas 
na Tabela 2.1. A distribuigao de frequences e representada por uma tabela de dupla 
entrada e esta na Tabela 4.2. 

Cada elemento do corpo da tabela da a frequencia observada das realizagoes si- 
multaneas de Y e V. Assim, observamos quatro individuos da capital com ensino funda¬ 
mental, sete do interior com ensino medio etc. 

A linha dos totais fornece a distribuigao da variavel Y, ao passo que a coluna dos 
totais fornece a distribuigao da variavel V. As distributes assim obtidas sao chamadas 
tecnicamente de distribuigoes marginais, enquanto a Tabela 4.2 constitui a distribui¬ 
gao conjunta de Y e V. 


Tabela 4.2: Distribuigao conjunta das frequencies das variaveis grau de instrugao (Y) e regiao de 
procedencia (V). 



Ensino 

Fundamental 

Ensino Medio 

Superior 

Total 

Capital 

4 

5 

2 

11 

Interior 

3 

7 

2 

12 

Outra 

5 

6 

2 

13 

Total 

12 

18 

6 

36 


Fonte: Tabela 2.1 


Em vez de trabalharmos com as frequences absolutas, podemos construir tabelas 
com as frequences relativas (proporgoes), como foi feito no caso unidimensional. 
Mas aqui existem tres possibilidades de expressarmos a proporgao de cada casela: 

(a) em relagao ao total geral; 

(b) em relagao ao total de cada linha; 

(c) ou em relagao ao total de cada coluna. 

De acordo com o objetivo do problema em estudo, uma delas sera a mais conveniente. 
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A Tabela 4.3 apresenta a distribuigao conjunta das frequences relativas, expressas 
como proporgoes do total geral. Podemos, entao, afirmar que 11% dos empregados vem 
da capital e tern o ensino fundamental. Os totals nas margens fornecem as distributes 
unidimensionais de cada uma das variaveis. Por exemplo, 31% dos indivfduos vem da 
capital, 33% do interior e 36% de outras regioes. Observe que, devido ao problema de 
aproximagao das divisoes, a distribuigao das proporgoes introduz algumas diferengas nao 
existentes. Compare, por exemplo, as colunas de instrugao superior nas Tabelas 4.2 e 4.3. 

A Tabela 4.4 apresenta a distribuigao das proporgoes em relagao ao total das colunas. 
Podemos dizer que, entre os empregados com instrugao ate o ensino fundamental, 33% 
vem da capital, ao passo que entre os empregados com ensino medio, 28% vem da 
capital. Esse tipo de tabela serve para comparar a distribuigao da procedencia dos 
indivfduos conforme o grau de instrugao. 


Tabela 4.3: Distribuigao conjunta das proporgoes (em porcentagem) em 
relagao ao total geral das variaveis Y e V definidas no texto. 


Y 

V 

Fundamental 

Medio 

Superior 

Total 

Capital 

11% 

14% 

6% 

31% 

Interior 

8% 

19% 

6% 

33% 

Outra 

14% 

17% 

5% 

36% 

Total 

33% 

50% 

17% 

100% 


Fonte: Tabela 4.2. 


Tabela 4.4: Distribuigao conjunta das proporgoes (em porcentagem) em 
relagao aos totais de cada coluna das variaveis Y e V definidas 
no texto. 


Y 

V 

Fundamental 

Medio 

Superior 

Total 

Capital 

33% 

28% 

33% 

31% 

Interior 

25% 

39% 

33% 

33% 

Outra 

42% 

33% 

34% 

36% 

Total 

100% 

100% 

100% 

100% 


Fonte: Tabela 4.2. 


De modo analogo, podemos construir a distribuigao das proporgoes em relagao ao 
total das linhas. Aconselhamos o leitor a construir essa tabela. 

A comparagao entre as duas variaveis tambem pode ser feita utilizando-se repre- 
sentagoes graficas. Na Figura 4.1 apresentamos uma possfvel representagao para os 
dados da Tabela 4.4. 
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Figura 4.1 Distribuiccio da regiao de procedencia por grau de instrucao. 




Capital 


Interior 



1. Usando os dados da Tabela 2.1, Capitulo 2: 

(a) Construa a distribuigao de frequencia conjunta para as variaveis grau de instrugao e 
regiao de procedencia. 

(b) Qual a porcentagem de funcionarios que term o ensino medio? 

(c) Qual a porcentagem daqueles que tern o ensino medio e sao do interior? 

(d) Dentre os funcionarios do interior, quantos por cento tern o ensino medio? 

2. No problema anterior, sorteando um funcionario ao acaso entre os 36: 

(a) Qual sera provavelmente o seu grau de instrugao? 

(b) E sua regiao de procedencia? 

(c) Qual a probabilidade do sorteado ter ntvel superior? 

(d) Sabendo que o sorteado e do interior, qual a probabilidade de ele possuir nfvel superior? 

(e) Sabendo que o escolhido e da capital, qual a probabilidade de ele possuir ntvel 
superior? 

3. Numa pesquisa sobre rotatividade de mao-de-obra, para uma amostra de 40 pessoas 
foram observadas duas variaveis: numero de empregos nos ultimos dois anos (X) e 
salario mais recente, em numero de salarios mtnimos (Y). Os resultados foram: 
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Indivfduo 

X 

Y 

Indivfduo 

X 

Y 

1 

1 

6 

21 

2 

4 

2 

3 

2 

22 

3 

2 

3 

2 

4 

23 

4 

1 

4 

3 

1 

24 

1 

5 

5 

2 

4 

25 

2 

4 

6 

2 

1 

26 

3 

2 

7 

3 

3 

27 

4 

1 

8 

1 

5 

28 

1 

5 

9 

2 

2 

29 

4 

4 

10 

3 

2 

30 

3 

3 

11 

2 

5 

31 

2 

2 

12 

3 

2 

32 

1 

1 

13 

1 

6 

33 

4 

1 

14 

2 

6 

34 

2 

6 

15 

3 

2 

35 

4 

2 

16 

4 

2 

36 

3 

1 

17 

1 

5 

37 

1 

4 

18 

2 

5 

38 

3 

2 

19 

2 

1 

39 

2 

3 

20 

2 

1 

40 

2 

5 


(a) Usando a mediana, classifique os indivfduos em dois nfveis, alto e baixo, para cada uma 
das variaveis, e construa a distribuigao de frequencies conjunta das duas classificaqoes. 

(b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco? 

(c) Qual a porcentagem das pessoas que ganham pouco? 

(d) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganham pouco? 

(e) A informagao adicional dada em (d) mudou muito a porcentagem observada em (cj? 

O que isso significa? 

4.3 Associacao entre Variaveis Qualitativas 

Um dos principals objetivos de se construir uma distribuigao conjunta de duas 
variaveis qualitativas e descrever a associagao entre elas, isto e, queremos conhecer o 
grau de dependence entre elas, de modo que possamos prever melhor o resultado de 
uma delas quando conhecermos a realizagao da outra. 

Por exemplo, se quisermos estimar qual a renda media de uma famflia moradora 
da cidade de Sao Paulo, a informagao adicional sobre a classe social a que ela pertence 
nos permite estimar com maior precisao essa renda, pois sabemos que existe uma 
dependence entre as duas variaveis: renda familiar e classe social. Ou, ainda, supo- 
nhamos que uma pessoa seja sorteada ao acaso na populagao da cidade de Sao Paulo 
e devamos adivinhar o sexo dessa pessoa. Como a proporgao de pessoas de cada sexo 
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e aproximadamente a mesma, o resultado desse exercfcio de adivinhagao poderia ser 
qualquer um dos sexos: masculino ou feminino. Mas se a mesma pergunta fosse feita 
e tambem fosse dito que a pessoa sorteada trabalha na industria siderurgica, entao 
nossa resposta mais provavel seria que a pessoa sorteada e do sexo masculino. Ou 
seja, ha um grau de dependence grande entre as variaveis sexo e ramo de atividade. 

Vejamos como podemos identificar a associagao entre duas variaveis da distribui- 
gao conjunta. 

Exemplo 4.2 Queremos verificar se existe ou nao associagao entre o sexo e a carreira 
escolhida por 200 alunos de Economia e Administragao. Esses dados estao naTabela 4.5. 


Tabela 4.5: Distribuiipao conjunta de alunos segundo o sexo (X ) e 
ocurso escolhido (Y). 


X 

Y 

Masculino 

Feminino 

Total 

Economia 

85 

35 

120 

Administracao 

55 

25 

80 

Total 

140 

60 

200 


Fonte: Dados hipoteticos. 


Inicialmente, verificamos que fica muito dificil tirar alguma conclusao, devido a dife- 
renga entre os totais marginais. Devemos, pois, construir as proporgoes segundo as linhas 
ou as colunas para podermos fazer comparagoes. Fixemos os totais das colunas; a distribui- 
gao esta naTabela 4.6. 


Tabela 4.6: Distribuigao conjunta das proporcoes (em porcentagem) 
de alunos segundo o sexo (X) e o curso escolhido (Y). 


X 

Y 

Masculino 

Feminino 

Total 

Economia 

61% 

58% 

60% 

Administragao 

39% 

42% 

40% 

Total 

100% 

100% 

100% 


Fonte: Tobelo 4.5. 


A partir dessa tabela podemos observar que, independentemente do sexo, 60% das 
pessoas preferem Economia e 40% preferem Administragao (observe na coluna de total). 
Nao havendo dependence entre as variaveis, esperarfamos essas mesmas proporgoes 
para cada sexo. Observando a tabela, vemos que as proporgoes do sexo masculino 
(61% e 39%) e do sexo feminino (58% e 42%) sao proximas das marginais (60% e 40%). 
Esses resultados parecem indicar nao haver dependence entre as duas variaveis, para o 
conjunto de alunos considerado. Conclufmos entao que, neste caso, as variaveis sexo e 
escolha do curso parecem ser nao associadas. 
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Vamos considerar, agora, um problema semelhante, mas envolvendo alunos de 
Ffsica e Ciencias Sociais, cuja distribuigao conjunta esta na Tabela 4.7. 


Tabela 4.7: Distribuigao conjunta das frequencies e proporgoes (em 
porcentagem), segundo o sexo (X) e o curso escolhido (Y). 



Masculino 

Feminino 

Total 

Ffsica 

100(71%) 

20(33%) 

120(60%) 

Ciencias Sociais 

40(29%) 

40(67%) 

80(40%) 

Total 

140(100%) 

60(100%) 

200(100%) 


Fonte: Dados hipoteticos. 


Inicialmente, convem observar que, para economizar espago, resumimos duas tabelas 
numa unica, indicando as proporgoes em relagao aos totais das colunas entre parenteses. 
Comparando agora a distribuigao das proporgoes pelos cursos, independentemente do 
sexo (coluna de totais), com as distributes diferenciadas por sexo (colunas de masculino 
e feminino), observamos uma disparidade bem acentuada nas proporgoes. Parece, pois, 
haver maior concentragao de homens no curso de Ffsica e de mulheres no de Ciencias 
Sociais. Portanto, nesse caso, as variaveis sexo e curso escolhido parecem ser associadas. 

Quando existe associagao entre variaveis, sempre e interessante quantificar essa 
associagao, e isso sera objeto da proxima segao. Antes de passarmos a discutir esse aspecto, 
convem observar que terfamos obtido as mesmas conclusoes do Exemplo 4.2 se tivesse- 
mos calculado as proporgoes, mantendo constantes os totais das linhas. 

*1 rTTTTT^B_ 

4. Usando os dados do Problema 1, responda: 

(a) Qual a distribuigao das proporgoes do grau de educagao segundo cada uma das 
regioes de procedencia? 

(b) Baseado no resultado anterior e no Problema 2, voce diria que existe dependencia 
entre a regiao de procedencia e o nivel de educagao do funcionario? 

5. Usando o Problema 3, verifique se ha relagoes entre as variaveis rotatividade e salario. 

6. Uma companhia de seguros analisou a frequencia com que 2.000 segurados (1.000 
homens e 1.000 mulheres) usaram o hospital. Os resultados foram: 



Flomens 

Mulheres 

Usaram o hospital 

100 

150 

Nao usaram o hospital 

900 

850 


(a) Calcule a proporgao de homens entre os indivfduos que usaram o hospital. 

(b) Calcule a proporgao de homens entre os indivfduos que nao usaram o hospital. 

(c) O uso do hospital independe do sexo do segurado? 
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4.4 Medidas de Associagao entre Variaveis Qualitativas 

De modo geral, a quantificagao do grau de associagao entre duas variaveis e feita 
pelos chamados coeficientes de associagao ou correlagao. Essas sao medidas que 
descrevem, por meio de um unico numero, a associagao (ou dependencia) entre duas 
variaveis. Para maior facilidade de compreensao, esses coeficientes usualmente variam 
entre 0 e 1, ou entre -1 e +1, e a proximidade de zero indica falta de associagao. 

Existem muitas medidas que quantificam a associagao entre variaveis qualitativas, 
apresentaremos apenas duas delas: o chamado coeficiente de contingency, devido a 
K. Pearson e uma modificagao desse. 

Exemplo 4.3 Queremos verificar se a criagao de determinado tipo de cooperativa esta 
associada com algum fator regional. Coletados os dados relevantes, obtemos a Tabela 4.8. 


Tabela 4.8: Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974. 


Estado 

Tipo de Cooperativa 

Total 

Consumidor 

Produtor 

Escola 

Outras 

Sao Paulo 

214(33%) 

237(37%) 

78(12%) 

119(18%) 

648(100%) 

Parana 

51 (17%) 

102(34%) 

126(42%) 

22(7%) 

301 (100%) 

RioG. do Sul 

111 (18%) 

304(51%) 

139(23%) 

48(8%) 

602(100%) 

Total 

376(24%) 

643 (42%) 

343(22%) 

189(12%) 

1.551 (100%) 


Fonte: Sinopse Estatfstica da Brasil — IBGE, 1977. 


A analise da tabela mostra a existencia de certa dependencia entre as variaveis. Caso 
nao houvesse associagao, esperarfamos que em cada estado tivessemos 24% de coope¬ 
rativas de consumidores, 42% de cooperativas de produtores, 22% de escolas e 12% 
de outros tipos. Entao, por exemplo, o numero esperado de cooperativas de consumido¬ 
res no Estado de Sao Paulo seria 648 x 0,24 = 157 e no Parana seria 301 x 0,24 = 73 (ver 
Tabela 4.9). 


Tabela 4.9: Valores esperados na Tabela 4.8 assumindo a independence entre as 
duas variaveis. 


Estado 

Tipo de Cooperativa 

Total 

Consumidor 

Produtor 

Escola 

Outras 

Sao Paulo 

157(24%) 

269(42%) 

143(22%) 

79(12%) 

648(100%) 

Parana 

73(24%) 

124(42%) 

67(22%) 

37(12%) 

301 (100%) 

Rio G. do Sul 

146(24%) 

250(42%) 

133(22%) 

73(12%) 

602(100%) 

Total 

376(24%) 

643 (42%) 

343(22%) 

189(12%) 

1.551 (100%) 


Fonte: Tabela 4.8. 
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Tabela 4.10: Desvios entre observados e esperados. 


Estado 

Tipo de Cooperativa 

Consumidor 

Produfor 

Escola 

Outras 

Sao Paulo 

Parana 

RioG. do Sul 

57(20,69) 
-22 (6,63) 
-35 (8,39) 

-32(3,81) 
-22 (3,90) 
54(11,66) 

-65(29,55) 

59(51,96) 

6(0,27) 

40(20,25) 

-15(6,08) 

-25(8,56) 


Fonte: Tabelas 4.8 e 4.9. 


Comparando as duas tabelas, podemos verificar as discrepancies existentes entre os 
valores observados (Tabela 4.8) e os valores esperados (Tabela 4.9), caso as variaveis 
nao fossem associadas. Na Tabela 4.10 resumimos os desvios: valores observados me- 
nos valores esperados. Observando essa tabela podemos tirar algumas conclusoes: 

(i) A soma total dos resfduos e nula. Isso pode ser verificado facilmente soman- 
do-se cada linha. 

(ii) A casela Escola-Sao Paulo e aquela que apresenta o maior desvio da suposigao 
de nao-associagao (-65). Nessa casela esperavamos 143 casos. A casela Escola- 
Parana tambem tern urn desvio alto (59), mas o valor esperado e bem menor 
(67). Portanto, se fossemos considerar os desvios relativos, aquele correspon- 
dente ao segundo caso seria bem maior. Uma maneira de observar esse fato e 
construir, para cada casela, a medida 

(4.1) 

no qual q e o valor observado eeeo valor esperado. 

Usando (4.1) para a casela Escola-Sao Paulo obtemos (-65) 2 /143 = 29,55 e para a 
casela Escola-Parana obtemos (59) 2 /67= 51,96, o que e uma indicagao de que o desvio 
devido a essa ultima casela e "maior" do que aquele da primeira. Na Tabela 4.10 
indicamos entre parenteses esses valores para todas as caselas. 

Uma medida do afastamento global pode ser dada pela soma de todas as medi- 
das (4.1). Essa medida e denominada X 2 (qui-quadrado) de Pearson, e no nosso 
exemplo terfamos 

Z 2 = 20,69 + 6,63 + ... + 8,56 = 171,76. 

Urn valor grande de X 2 indica associagao entre as variaveis, o que parece ser 
o caso. 

Antes de dar uma formula geral para essa medida de associagao, vamos introduzir, na 
Tabela 4.11, uma notagao geral para tabelas de dupla entrada. 
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Tabela 4.11: Notapao para tabelas de contingencia. 


Y 

x 

Bi 

b 2 


B. 

j 


B 

S 

Total 

A, 

n n 

n i 2 


n ii 


n is 

n i. 

a 2 

n 21 

n 22 


n 2j 


n 2 s 

n 2. 

A i 

n il 

n i 2 


"ii 


n is 

n i 

A 

r 

n rl 

n r 2 


n . 
rj 


n 

rs 

n 

r. 

Total 

n .l 

n . 2 


n .i 


n . 

n.. 


Suponha que temos duas variaveis qualitativas X e Y, classificadas em r categorias 
A 1( A 2 , A r para X e s categorias B 1( B 2 , B s , para Y. 

Na tabela, temos: 


n = numero de elementos pertencentes a i-esima categoria de X e j-esima categoria 
11 deY; 

n. = X, =1 n if = numero de elementos da i-esima categoria de X; 
n j = X, =1 n y = numero de elementos da j-esima categoria de Y; 
n.. = n = X; =1 Xj 5 = :1 n.. = numero total de elementos. 


Sob a hipotese de que as variaveis X e Y nao sejam associadas (comumente dize- 
mos independentes), temos que 


nil. = J}i2 

n.i n. 2 


= i = i 2 r 

n / 1 ,,, i 1 


(4.2) 


ou ainda 

JYj_ _ JV 
n j n ' 

de onde se deduz, finalmente, que 


i = 1.r, j = 1.s 


i = 1.r, j = 1.s. 


(4.3) 


Portanto, sob a hi potese de independence, de (4.3) segue que, em termos de 
frequences relativas, podemos escrever ^ = f, f,. 

Chamando de frequencias esperadas os valores dados pelos segundos membros 
de (4.3), e denotando-as por n* jf temos que o qui-quadrado de Pearson pode ser escrito 

i =1 i =1 1 1 ii 


(4.4) 
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onde n y sao os valores efetivamente observados. Se a hipotese de nao-associagao for 
verdadeira, o valor calculado de (4.4) deve estar proximo de zero. Se as variaveis 
forem associadas, o valor de X 2 deve ser grande. 

Podemos escrever a formula (4.4) em termos de frequences relativas, como 


r 


r s (f 


f*) 2 

'ii ' 


i =1 i =1 


f* 


para a qual as notagoes sao similares. 

Pearson definiu uma medida de associagao, baseada em (4.4), chamada coeficiente 
de contingency, dado por 


C = 



(4.5) 


Contudo, o coeficiente acima nao varia entre 0 e 1. 0 valor maximo de C depen- 
de de r e s. Para evitar esse inconveniente, costuma-se definir urn outro coeficiente, 
dado por 


T = 


X In 


(r-l)(s-l) 


(4.6) 


que atinge o maximo igual a 1 se r = s. 

Para o Exemplo 4.3 temos que C = 0,32 e T = 0,14. Voltaremos a falar do uso do X 2 
no Capftulo 14. 


7. Usando os dados do Problema 1, calcule o valor de X 2 e o coeficiente de contingency C. 
Esses vaiores estao de acordo com as conclusoes obtidas anteriormente? 

8. Qual o valorde2f 2 e de C para os dados do Problema 3? E para o Problema 6? Calcule T. 

9. A Companhia A de dedetizaqao afirma que o processo por ela utilizado garante urn efeito 
mais prolongado do que aquele obtido por seus concorrentes mais diretos. Uma amostra 
de varios ambientes dedetizados foi colhida e anotou-se a duragao do efeito de dedetizagao. 
Os resultados estao na tabela abaixo. Voce acha que existe alguma evidencia a favor ou 
contra a afirmagao feita pela Companhia A ? 



Duracao do efeito de dedetizagao 

Companhia 

Menos de 

4 meses 

De4a 8 

meses 

Mais de 

8 meses 

A 

64 

120 

16 

B 

104 

175 

21 

C 

27 

48 

5 
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4.5 Associacao entre Variaveis Quantitativas 

Quando as variaveis envolvidas sao ambas do tipo quantitative, pode-se usar o 
mesmo tipo de analise apresentado nas segoes anteriores e exemplificado com 
variaveis qualitativas. De modo analogo, a distribuigao conjunta pode ser resumi- 
da em tabelas de dupla entrada e, por meio das distribuigoes marginais, e possfvel 
estudar a associagao das variaveis. Algumas vezes, para evitar um grande numero 
de entradas, agrupamos os dados marginais em intervalos de classes, de modo 
semelhante ao resumo feito no caso unidimensional. Mas, alem desse tipo de ana- 
lise, as variaveis quantitativas sao passfveis de procedimentos analfticos e graficos 
mais refinados. 

Um dispositivo bastante util para se verificar a associagao entre duas variaveis 
quantitativas, ou entre dois conjuntos de dados, e o grafico de dispersao, que vamos 
introduzir por meio de exemplos. 

Exemplo 4.4. Na Figura 4.2 temos o grafico de dispersao das variaveis X e Y da 
Tabela 4.12. Nesse tipo de grafico temos os possfveis pares de valores (x, y), na 
ordem que aparecem. Para o exemplo, vemos que parece haver uma associagao 
entre as variaveis, porque no conjunto, a medida que aumenta o tempo de servigo, 
aumenta o numero de clientes. 


Tabela 4.12: Numero deanos de servigo (X) por numero de clientes 
(Y) de agentes de uma companhia de seguros. 


Agente 

Anos de servipo 
(X) 

Numero de clientes 
(Y) 

A 

2 

48 

B 

3 

50 

C 

4 

56 

D 

5 

52 

E 

4 

43 

F 

6 

60 

G 

7 

62 

H 

8 

58 

1 

8 

64 

J 

10 

72 


Fonte: Dados hipoteticos. 
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Figure! 4.2: Grafico de dispersao para as variaveis X: 

anos de servico e Y: numero de clientes. 



Exemplo 4.5. Consideremos os dados das variaveis X: populagao urbana e Y: populagao 
rural, do CD-Brasil. 0 grafico de dispersao esta na Figura 4.3. Vemos que parece nao haver 
associagao entre as variaveis, pois os pontos nao apresentam nenhuma tendencia particular. 

Figura 4.3 Grafico de dispersao para as variaveis X: 
populacao urbana e Y: populapao rural. 
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Exemplo 4.6. Consideremos agora as duas situagoes abaixo e os respectivos graficos de dispersao. 


Tabela 4.13: Renda bruta mensal (X) e porcentagem da 
renda gasta em saude (Y ) para um conjunto 
de famflias. 


Famflia 

X 

Y 

A 

12 

7,2 

B 

16 

7,4 

C 

18 

7,0 

D 

20 

6,5 

E 

28 

6,6 

F 

30 

6,7 

G 

40 

6,0 

H 

48 

5,6 

1 

50 

6,0 

J 

54 

5,5 


Fonte: Dados hipoteticos. 
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(a) Numa pesquisa feita com dez familias com renda bruta mensal entre 10 e 60 sala- 
rios minimos, mediram-se: 

X: renda bruta mensal (expressa em numero de salarios mfnimos). 

Y: a porcentagem da renda bruta anual gasta com assistencia medica; os dados 
estao na Tabela 4.13. Observando o grafico de dispersao (Figura 4.4), vemos 
que existe uma associagao "inversa", isto e, aumentando a renda bruta, diminui 
a porcentagem sobre ela gasta em assistencia medica. 


Figura 4.4: Grafico de dispersao para as variaveis X: 

renda bruta e Y: % renda gasta com saude. 



Antes de passarmos ao exemplo seguinte, convem observar que a disposigao dos 
dados da Tabela 4.13 numa tabela de dupla entrada nao iria melhorar a compreen- 
sao dos dados, visto que, devido ao pequeno numero de observagoes, terfamos 
caselas cheias apenas na diagonal. 

(b) Oito individuos foram submetidos a urn teste sobre conhecimento de lingua es- 
trangeira e, em seguida, mediu-se o tempo gasto para cada urn aprender a operar 
uma determinada maquina. As variaveis medidas foram: 

X:resultado obtido no teste (maximo = 100 pontos); 

Y: tempo, em minutos, necessario para operar a maquina satisfatoriamente. 

Figura 4.5: Grafico de dispersao para as variaveis X: 

resultado no teste e Y: tempo de operagao. 
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Tabela 4.14: Resultado de um teste (X ) e tempo de ope- 
racao de maquina (Y ) para oito individuos. 


Indivfduo 

X 

Y 

A 

45 

343 

B 

52 

368 

C 

61 

355 

D 

70 

334 

E 

74 

337 

F 

76 

381 

G 

80 

345 

H 

90 

375 


Fonte: Dados hipoteticos. 


Os dados estao na Tabela 4.14. Do grafico de dispersao (Figura 4.5) conclufmos 
que parece nao haver associagao entre as duas variaveis, pois conhecer o resultado do 
teste nao ajuda a prever o tempo gasto para aprender a operar a maquina. 

A partir dos graficos apresentados, verificamos que a representagao grafica das 
variaveis quantitativas ajuda muito a compreender o comportamento conjunto das 
duas variaveis quanto a existence ou nao de associagao entre elas. 

Contudo, e muito util quantificar esta associagao. Existem muitos tipos de associagoes 
possfveis, e aqui iremos apresentar o tipo de relagao mais simples, que e a linear. Isto 
e, iremos definir uma medida que avalia o quanto a nuvem de pontos no grafico de 
dispersao aproxima-se de uma reta. Esta medida sera definida de modo a variar num 
intervalo finito, especificamente, de -1 a +1. 

Consideremos um grafico de dispersao como o da Figura 4.6 (a) no qual, por meio de 
uma transformagao conveniente, a origem foi colocada no centra da nuvem de dispersao. 
Aqueles dados possuem uma associagao linear direta (ou positiva) e notamos que a grande 
maioria dos pontos esta situada no primeiro e terceiro quadrantes. Nesses quadrantes as 
coordenadas dos pontos tern o mesmo sinal, e, portanto, o produto delas sera sempre 
positivo. Somando-se o produto das coordenadas dos pontos, o resultado sera um numero posi- 
tivo, pois existem mais produtos positivos do que negativos. 


Figura 4.6: Tipos de associates entre duas variaveis. 



Para a dispersao da Figura 4.6 (b), observamos uma dependence linear inversa 
(ou negativa) e, procedendo-se como anteriormente, a soma dos produtos das coorde¬ 
nadas sera negativa. 
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Finalmente, para a Figura 4.6 (c), a soma dos produtos das coordenadas sera zero, 
pois cada resultado positivo tem um resultado negativo simetrico, anulando-se na soma. 
Nesse caso nao ha associagao linear entre as duas variaveis. Em casos semelhantes, 
quando a distribuigao dos pontos for mais ou menos circular, a soma dos produtos sera 
aproximadamente zero. 

Baseando-se nesses fatos e que iremos definir o coeficiente de correlagao (linear) 
entre duas variaveis, que e uma medida do grau de associagao entre elas e tambem da 
proximidade dos dados a uma reta. Antes, cabe uma observagao. A soma dos produtos 
das coordenadas depende, e muito, do numero de pontos. Considere o caso de associagao 
positiva: a soma acima tende a aumentar com o numero de pares (x, y) e ficaria diffcil 
comparar essa medida para dois conjuntos com numeros diferentes de pontos. Por 
isso, costuma-se usar a media da soma dos produtos das coordenadas. 

Exemplo 4.7 Voltemos aos dados da Tabela 4.12. 0 primeiro problema que devemos 
resolver e o da mudanga da origem do sistema para o centra da nuvem de dispersao. Um 
ponto conveniente e (x, y), ou seja, as coordenadas da origem serao as medias dos valores 
de X e Y. As novas coordenadas estao mostradas na quarta e quinta colunas da Tabela 4.15. 

Observando esses valores centrados, verificamos que ainda existe um problema quanto 
a escala usada. A variavel Y tem variabilidade muito maior do que X, e o produto ficaria muito 
mais afetado pelos resultados de Y do que pelos de X. Para corrigirmos isso, podemos reduzir 
as duas variaveis a uma mesma escala, dividindo-se os desvios pelos respectivos desvios 
padroes. Esses novos valores estao nas colunas 6 e 7. Observe as mudangas (escalas dos 
eixos) de variaveis realizadas, acompanhando a Figura 4.7. Finalmente, na coluna 8, indica- 
mos os produtos das coordenadas reduzidas e sua soma, 8,769, que, como esperavamos, e 
positiva. Para completar a definigao dessa medida de associagao, basta calcular a media dos 
produtos das coordenadas reduzidas, isto e, correlagao (X,Y) = 8,769/10 = 0,877. 

Tabela 4.15: Calculo do coeficiente de correlagao. 


Agente 

Anos 

X 

Clientes 

y 

X- X 

y- y 

X- X 

y- y 

z x -z y 

dp(x) 

dp(y) 

A 

2 

48 

-3,7 

-8,5 

-1,54 

-1,05 

1,617 

B 

3 

50 

-2,7 

-6,5 

-1,12 

-0,80 

0,846 

C 

4 

56 

-1,7 

-0,5 

-0,71 

-0,06 

0,043 

D 

5 

52 

-0,7 

-4,5 

-0,29 

-0,55 

0,160 

E 

4 

43 

-1,7 

-13,5 

-0,71 

-1,66 

1,179 

F 

6 

60 

0,3 

3,5 

0,12 

0,43 

0,052 

G 

7 

62 

1,3 

5,5 

0,54 

0,68 

0,367 

H 

8 

58 

2,3 

1,5 

0,95 

0,19 

0,181 

1 

8 

64 

2,3 

7,5 

0,95 

0,92 

0,874 

J 

10 

72 

4,3 

15,5 

1,78 

1,91 

3,400 

Total 

57 

565 

0 

0 



8,769 


x = 5,7, dp(X) = 2,41, y = 56,5, dp(Y) = 8,11 
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Portanto, para esse exemplo, o grau de associagao linear esta quantificado por 87,7%. 

Figura 4.7 Mudanpa de escalas para o calculo do coeficiente de correlacao. 



Da discussao feita ate aqui, podemos definir o coeficiente de correlagao do seguin- 
te modo. 


Definigao. Dados n pares de valores (x v y x ), (x 2 , y 2 ), (x n , y n ), chamaremos de coe¬ 
ficiente de correlagao entre as duas variaveis X e Y a 


corr(X,Y) = iZ(|^ 


Yi - y ) 

dp(Y) )' 


(4.7) 


ou seja, a media dos produtos dos valores padronizados das variaveis. 

Nao e dificil provar que o coeficiente de correlagao satisfaz 

-1 =£ corr (X, Y ) s= l. (4.8) 


A definigao acima pode ser operacionalizada de modo mais conveniente pelas 
seguintes formulas: 


corr(X, Y) =1^ 
n 


Xi - x V y, - y \ 
dp(X)Adp(Y) / 


SxiYi - nxy 

^(Exf - n^XSyf - ny') 


(4.9) 


0 numerador da expressao acima, que mede o total da concentragao dos pontos pelos 
quatro quadrantes, da origem a uma medida bastante usada e que definimos a seguir. 


Definigao. Dados n pares de valores (x 1( y x ), ..., (x n , y n ), chamaremos de covariancia 
entre as duas variaveis X e Y a 


cov(x, Y) = E’. 1 (»,- [| i0(yi-? 1 | 


(4.10) 


ou seja, a media dos produtos dos valores centrados das variaveis. 

Com essa definigao, o coeficiente de correlagao pode ser escrito como 


corr (X, Y) 


cov(X, Y) 
dp(X) . dp(Y) 


(4.11) 
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Para analisar dois conjuntos de dados podemos recorrer, tambem, aos metodos 
utilizados anteriormente para analisar um conjunto de dados, exibindo as analises feitas 
separadamente, para efeito de comparagao. Por exemplo, podemos exibir os desenhos 
esquematicos, ou os ramos-e-folhas para os dois conjuntos de observagoes. 

4.6 Associacao entre Variaveis Qualitativas e Quantifafivas 

Como mencionado na introdugao deste capftulo, e comum nessas situagoes anali¬ 
sar o que acontece com a variavel quantitativa dentro de cada categoria da variavel 
qualitativa. Essa analise pode ser conduzida por meio de medidas-resumo, histogramas, 
box plots ou ramo-e-folhas. Vamos ilustrar com um exemplo. 

Exemplo 4.8. Retomemos os dados da Tabela 2.1, para os quais desejamos analisar 
agora o comportamento dos salarios dentro de cada categoria de grau de instrugao, ou 
seja, investigar o comportamento conjunto das variaveis S e Y. 


Tabela 4.16: Medidas-resumo para a variavel salario, segundoo grau de instrugao, na Companhia MB. 


Grau de 
instruipao 

n 

s 

dp(S) 

var(S) 

S(i) 


q 2 

ds 

5(n) 

Fundamental 

12 

7,84 

2,79 

7,77 

4,00 

6,01 

7,13 

9,16 

13,65 

Medio 

18 

11,54 

3,62 

13,10 

5,73 

8,84 

10,91 

14,48 

19,40 

Superior 

6 

16,48 

4,11 

16,89 

10,53 

13,65 

16,74 

18,38 

23,30 

Todos 

36 

11,12 

4,52 

20,46 

4,00 

7,55 

10,17 

14,06 

23,30 


Comecemos a analise construindo a Tabela 4.16, que contem medidas-resumo da 
variavel S para cada categoria de Y. A seguir, na Figura 4.8, apresentamos uma 
visualizagao grafica por meio de box plots. 


Figura 4.8: Box plots de salario segundo grau de instrucao. 
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A leitura desses resultados sugere uma dependence dos salarios em relagao ao grau de 
instrugao: o salario aumenta conforme aumenta o nivel de educagao do individuo. 0 salario 
medio de um funcionario e 11,12 (salarios minimos), ja para um funcionario com curso 
superior o salario medio passa a ser 16,48, enquanto funcionarios com o ensino fundamental 
completo recebem, em media, 7,84. 

Na Tabela 4.17 e Figura 4.9 temos os resultados da analise dos salarios em fungao 
da regiao de procedencia (V), que mostram a inexistencia de uma relagao melhor 
definida entre essas duas variaveis. Ou, ainda, os salarios estao mais relacionados com 
o grau de instrugao do que com a regiao de procedencia. 


Tabela 4.17: Medidas-resumo para a variavel salario segundo a regiao de procedencia, na Com- 
panhia MB. 


Regiao de 
procedencia 

n 

s 

dp(S) 

var(S) 

S (D 

Hi 



S (n) 

Capital 

11 

11,46 

5,22 

27,27 

4,56 

7,49 

9,77 

16,63 

19,40 

Interior 

12 

11,55 

5,07 

25,71 

4,00 

7,81 

10,64 

14,70 

23,30 

Outra 

13 

10,45 

3,02 

9,13 

5,73 

8,74 

9,80 

12,79 

16,22 

Todos 

36 

11,12 

4,52 

20,46 

4,00 

7,55 

10,17 

14,06 

23,30 


Figura 4.9 Box plots de salario segundo regiao de procedencia. 



Capital 


Interior 


Outra 


Como nos casos anteriores, e conveniente poder contar com uma medida que quantifique 
o grau de dependence entre as variaveis. Com esse intuito, convem observar que as variances 
podem ser usadas como insumos para construir essa medida. Sem usar a informagao da 
variavel categorizada, a variancia calculada para a variavel quantitativa para todos os dados 
mede a dispersao dos dados globalmente. Se a variancia dentro de cada categoria for peque- 
na e menor do que a global, significa que a variavel qualitativa melhora a capacidade de 
previsao da quantitativa e portanto existe uma relagao entre as duas variaveis. 

Observe que, para as variaveis S e Y, as variances de S dentro das tres categorias 
sao menores do que a global. Ja para as variaveis S e V, temos duas variances de S 
maiores e uma menor do que a global, o que corrobora a afirmagao acima. 
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Necessita-se, entao, de uma medida-resumo da variancia entre as categorias da 
variavel qualitativa. Vamos usar a media das variances, porem ponderada pelo nume- 
ro de observagoes em cada categoria, ou seja, 

var(S) - ".var,(5) , (4 . 12) 

2 ".. n, 

no qual k e o numero de categorias (k = 3 nos dois exemplos acima) e var(S) denota a 
variancia de S dentro da categoria i, i = 1, 2, . . . , k. 

Pode-se mostrar que var(S) var(S), de modo que podemos definir o grau de 
associagao entre as duas variaveis como o ganho relativo na variancia, obtido pela 
introdugao da variavel qualitativa. Explicitamente, 

n 2 — var(S) - var(S) _ n var(S) 

R -var(S]- 1 _ Vaf(S)' (4 ' 13) 

Note que 0 R 2 1. 0 sfmbolo R 2 e usual em analise de variancia e regressao, 
topicos a serem abordados nos Capitulos 15 e 16, respectivamente. 


Exemplo 4.9. Voltando aos dados do Exemplo 4.8, vemos que para a variavel S na 
presenga de grau de instrugao, tem-se 


var(S) = 


12(7,77) +18(13,10) + 6(16,89) 

12+18+6 


var(S) = 20,46, 


11,96, 


de modo que 


R 2 = 1 - 


11,96 

20,46 


= 0,415, 


e dizemos que 41,5% da variagao total do salario e explicada pela variavel grau de 
instrugao. 

Para S e regiao de procedencia temos 

CT^TcT _ 11(27,27) + 12(25,71) + 13(9,13) _ ™ ™ 
var( S)- n+12+13 - 20 ' 20 ' 

e, portanto, 

d 2 _ 1 _ 20,20 _ n ni 3 
K - 1 20,46 “ U ' UiJ ’ 

de modo que apenas 1,3% da variabilidade dos salarios e explicada pela regiao de proceden¬ 
cia. A comparagao desses dois numeros mostra maior relagao entre S e Y do que entre S e V. 
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4.6 ASSOCIACAO ENTRE VARIAVEIS QUALITATIVAS E QUANTITATIVAS 


u *>i *1 _ 

10. Para cada parde variaveis abaixo, esboce o diagrama de dispersao. Diga se voce espera 
uma dependencia linear e nos casos afirmativos avalie o coeficiente de correlagao. 

(a) Peso e altura dos alunos do primeiro ano de um curso de Administragao. 

(b) Peso e altura dos funcionarios de um escritorio. 

(c) Quantidade de trigo produzida e quantidade de agua recebida por canteiros numa 
estagao experimental. 

(d) Notas de Calculo e Estatistica de uma classe onde as duas disciplinas sao lecionadas. 

(e) Acuidade visual e idade de um grupo de pessoas. 

(f) Renda familiar e porcentagem dela gasta em alimentagao. 

(g) Numero de pegas montadas e resultado de um teste de ingles por operario. 

11. Abaixo estao os dados referentes a porcentagem da populagao economicamente ativa 
empregada no setor primario e o respectivo indice de analfabetismo para algumas regioes 
metropolitanas brasileiras. 


Regioes metropolitanas 

Setor primario 

Indice de analfabetismo 

Sao Paulo 

2,0 

17,5 

Rio de Janeiro 

2,5 

18,5 

Belem 

2,9 

19,5 

Belo Horizonte 

3,3 

22,2 

Salvador 

4,1 

26,5 

Porto Alegre 

4,3 

16,6 

Recife 

7,0 

36,6 

Fortaleza 

13,0 

38,4 


Fonte: Indicadores Sociais para Areas Urbanas — IBGE — 1977. 


(a) Faga o diagrama de dispersao. 

(b) Voce acha que existe uma dependencia linear entre as duas variaveis? 

(c) Calcule o coeficiente de correlagao. 

(d) Existe alguma regiao com comportamento diferente das demais? Se existe, elimine o 
valor correspondente e recalcule o coeficiente de correlagao. 

12. Usando os dados do Problema 3: 

(a) Construa a tabela de frequencies conjuntas para as variaveis X (numero de empregos 
nos dois ultimos anos) e Y (salario mais recente). 

(b) Como poderia ser feito o grafico de dispersao desses dados? 

(c) Calcule o coeficiente de correlagao. Baseado nesse numero voce diria que existe 
dependencia entre as duas variaveis? 
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13. Quer se verificar a relagao entre o tempo de reagao e o numero de alternativas apresen- 
tadas a indivlduos acostumados a tomadas de decisao. Planejou-se um experimento em 
que se pedia ao participante para classificar objetos segundo um criterio previamente 
discutido. Participaram do experimento 15 executivos divididos aleatoriamente em grupos 
de cinco. Pediu-se, entao, a cada grupo para classificar dois, tres e quatro objetos, 
respectivamente. Os dados estao abaixo. 


N a de objetos 

2 

3 

4 

Tempo de reagao 

1,2,3,3,4 

2,3,4,4,5 

4,5,5,6,7 


(a) Faga o grafico de dispersao das duas variaveis. 

(b) Qual o coeficiente de correlagao entre elas? 

14. Calcule o grau de associagao entre as variaveis estado civil e idade, na Tabela 2.1. 

15. Usando os dados do Problema 9 do Capitulo 2, calcule o grau de associagao entre segao 
e notas em Estatfstica. 


4.7 Graficos qxq 

Outro tipo de representagao grafica que podemos utilizar para duas variaveis e o 
grafico quantis x quantis, que passamos a discutir. 

Suponha que temos valores x 1( x n da variavel X e valores y 1( y m da variavel Y, 
todos medidos pela mesma unidade. Por exemplo, temos temperaturas de duas cida- 
des ou alturas de dois grupos de individuos etc. 0 grafico q x q e um grafico dos 
quantis de X contra os quantis de Y. 

Pelo que vimos no Capitulo 3, se m = n o grafico q x q e um grafico dos dados 
ordenados de X contra os dados ordenados de Y. Se as distribuigoes dos dois conjuntos 
de dados fossem identicas, os pontos estariam sobre a reta y = x. 

Enquanto um grafico de dispersao fornece uma possfvel relagao global entre as varia¬ 
veis, o grafico qxq mostra se valores pequenos de X estao relacionados com valores 
pequenos de Y, se valores intermediaries de X estao relacionados com valores intermedia¬ 
ries de Y e se valores grandes de X estao relacionados com valores grandes de Y. Num 
grafico de dispersao podemos ter x t < x 2 e y t > y 2 , o que nao pode acontecer num grafico 
qxq, pois os valores em ambos os eixos estao ordenados, do menor para o maior. 

Exemplo 4.10. Na Tabela 4.18 temos as notas de 20 alunos em duas provas de 
Estatfstica e, na Figura 4.10, temos o correspondente grafico q x q. Os pontos estao 
razoavelmente dispersos ao redor da reta x = y, mostrando que as notas dos alunos 
nas duas provas nao sao muito diferentes. Mas podemos notar que, para notas abaixo 
de cinco, os alunos tiveram notas maiores na segunda prova, ao passo que, para 
notas de cinco a oito, os alunos tiveram notas melhores na primeira prova. A maioria 
das notas estao concentradas entre cinco e oito. 
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Figura 4.10: Grafico q x q para as notas em duas 
provas de Estatistica. 



Tabela 4.18: Notas de 20 alunos em duas provas de Estatistica. 


Aluno 

Prova 1 

Prova 2 

Aluno 

Prova 1 

Prova 2 

1 

8,5 

8,0 

11 

7,4 

6,5 

2 

3,5 

2,8 

12 

5,6 

5,0 

3 

7,2 

6,5 

13 

6,3 

6,5 

4 

5,5 

6,2 

14 

3,0 

3,0 

5 

9,5 

9,0 

15 

8,1 

9,0 

6 

7,0 

7,5 

16 

3,8 

4,0 

7 

4,8 

5,2 

17 

6,8 

5,5 

8 

6,6 

7,2 

18 

10,0 

10,0 

9 

2,5 

4,0 

19 

4,5 

5,5 

10 

7,0 

6,8 

20 

5,9 

5,0 


Exemplo 4.11. Consideremos, agora, as variaveis temperatura de Ubatuba e temperatura 
de Cananeia, do CD-Temperaturas. 0 grafico q x q esta na Figura 4.11. Observamos que 
a maioria dos pontos esta acima da reta y = x, mostrando que as temperaturas de Ubatuba 
sao, em geral, maiores do que as de Cananeia, para valores maiores do que 17 graus. 

Quando m a n, e necessario modificar os valores de p para os quantis da variavel 
com maior numero de pontos. Ver o Problema 33 para a solugao desse caso. 


Figura 4.11: Grafico q x q para os lados de tem¬ 
peratura de Cananeia e Ubatuba. 
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Problemas 


16. Faga o grafico q x q para as notas em Redagao e Economia dos 25 funcionarios da MB 
Industria e Comercio (Problema 9 do Capftulo 2). 

17. Faga o grafico q X q para as variaveis salario deprofessorsecundario e salario de administrador do 
CD-Salarios. Comente. 

4.8 Exemplos Computacionais 

Vamos considerar brevemente nesta segao o caso de mais de dois conjuntos de dados. 
Exemplos sao os dados sobre o Brasil, de poluigao e estatfsticas sobre vefculos, en- 
contrados nos Conjuntos de Dados. Veremos, tambem, um exemplo de calculo do 
coeficiente de correlagao para dados reais da Bolsa de Valores de Sao Paulo. 

Vejamos um exemplo em que temos duas variaveis quantitativas e uma qualitativa. 

Exemplo 4.12. Considere as variaveis salario, idade e grau de instrugao da Tabela 2.1. 
Separamos, agora, os salarios e idades por classe de grau de instrugao. Depois, podemos 
fazer graficos de dispersao, como na Figura 4.12. 


Figure! 4.12 Graficos de dispersao das variaveis salario e idade, segundo a variavel grau de instrucao. 
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Notamos que para o ensino fundamental e grau superior os salarios aumentam em 
geral com a idade, ao passo que para o ensino medio essa relagao nao se verifica, haven- 
do salarios baixos e altos numa faixa entre 350 e 450 meses. 

Exemplo 4.13. Considere o CD-Mercado, no qual temos os pregos de fechamento diarios 
de agoes da Telebras (X) e os indices I BOV ESPA (Y), de 2 de janeiro a 24 de fevereiro de 
1995, num total de n = 39 observagoes. 0 grafico de dispersao esta na Figura 4.13, que 
mostra que os pares de valores estao dispostos ao longo de uma reta com inclinagao 
positiva. Ou seja, esse grafico mostra que ha uma forte correlagao entre o prego das 
agoes da Telebras e o fndice da Bolsa de Valores de Sao Paulo. No grafico esta represen- 
tada a "reta de minimos quadrados". No Capftulo 16 veremos como determina-la. 
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Figura 4.13: Grafico de dispersao para apoes da Telebrds e 
BOVESPA. 



Utilizando (4.9) obtemos que 

corr(X|Y) 40213 ^ 139 )^ 7 ^ 91 ( 36 ^ 8 ) = 0 , 98 , 

V(31135,93 - (39)(27,99) 2 )(51999,68 - (39)(36,28) 2 ) 
o que mostra a forte associagao linear entre X e Y. 

Finalizamos esta segao com um tipo de grafico que tambem e util quando temos 
duas variaveis quantitativas e uma qualitativa. 


Exemplo 4.14. Considere o CD-Vefculos, no qual temos o prego, o comprimento e a 
capacidade do motor de vefculos vendidos no Brasil, classificados em duas categorias: 
N (nacionais) e I (importados). Podemos fazer um grafico de dispersao simbolico de 
pregos e comprimentos, indicando por um x se o carro for N e por um °, se for I. Veja a 
Figura 4.14. Observamos, pela figura, que os pregos dos vefculos importados sao, em 
geral, maiores do que os nacionais e que o prego aumenta com o comprimento. 

Figura 4.14; Grafico de dispersao simbolico das variaveis preco e 
comprimento de vefculos, categorizadas pela variavel 
procedencia: nacional (x) e importado (o). 
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4.9 Problemas e Complementos 

18. No estudo de uma certa comunidade, verificou-se que: 

(I) A proporgao de individuos solteiros e de 0,4. 

(II) A proporgao de individuos que recebem ate 10 salarios minimos e de 0,2. 

(III) A proporgao de individuos que recebem ate 20 salarios minimos e de 0,7. 

(IV) A proporgao de individuos casados entre os que recebem mais de 20 salarios mini¬ 
mos e de 0,7. 

(V) A proporgao de individuos que recebem ate 10 salarios minimos entre os solteiros e de 0,3. 

(a) Construa a distribuigao conjunta das variaveis estado civil e faixa salarial e as respec- 
tivas distributes marginais. 

(b) Voce diria que existe relagao entre as duas variaveis consideradas? 

19. Uma amostra de 200 habitantes de uma cidade foi escolhida para declarar sua opiniao 
sobre um certo projeto governamental. O resultado foi o seguinte: 


Opiniao 

Local de residencia 

Total 

Urbano 

Suburbano 

Rural 

A favor 

30 


35 


35 

100 

Contra 

60 


25 


15 

100 

Total 

90 

60 

50 

200 


(a) Calcule as proporgoes em relagao ao total das colunas. 

(b) Voce diria que a opiniao independe do local de residencia? 

(c) Encontre uma medida de dependencia entre as variagoes. 

20. Com base na tabela abaixo, voce concluiria que o tipo de atividade esta relacionado ao 
fato de as embarcagoes serem de propriedade estatal ou particular? Encontre uma medi¬ 
da de dependencia entre as variaveis. 


Propriedade 

Atividade 

Total 


Fluvial 

Internacional 

Costeira 

Estatal 

5 

141 

51 

197 

Particular 

92 

231 

48 

371 

Total 

97 

372 

99 

568 


Fonte: Sinopse Estatistica do Brasil — IBGE — 1975. 


21. Uma pesquisa sobre a participagao em atividades esportivas de adultos moradores nas 
proximidades de centros esportivos construidos pelo estado de Sao Paulo mostrou os 
resultados da tabela abaixo. Baseado nesses resultados voce diria que a participagao em 
atividades esportivas depende da cidade? 


Cidade 


ramcipam 

Sao Paulo 

Campinas 

Rib. Preto 

Santos 

Sim 

50 

65 

105 

120 

Nao 

150 

185 

195 

180 
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22. Uma pesquisa para verificar a tendencia dos alunos a prosseguir os estudos, segundo a 
classe social do respondente, mostrou o seguinte quadro: 


Pretende 

Classe social 

Total 

continuar? 

Alta 

Media 

Baixa 

Sim 

200 

220 

380 

800 

Nao 

200 

280 

720 

1.200 


(a) Voce diria que a distribuigao de respostas afirmativas e igual a de respostas 
negativas? 

(b) Existe dependencia entre os dois fatores? De uma medida quantificadora da depen¬ 
dence. 

(c) Se dos 400 alunos da classe alta 160 escolhessem continuar e 240 nao, voce muda- 

ria sua conclusao? Justifique. 

23. Refaga os calculos do Problema 19 usando as formulas derivadas em (4.2) — (4.3). 


24. Prce que jC^) 


(w) 


E XjYj - nxy 

a/(Ex 2 - nx 2 )(Ey 2 - ny 2 ) 


25. Numa amostra de cinco operarios de uma dada empresa foram observadas duas varia- 
veis: X: anos de experience num dado cargo e Y: tempo, em minutos, gasto na execugao 
de uma certa tarefa relacionada com esse cargo. 

As observagoes sao apresentadas na tabela abaixo: 


X 

1 

2 

4 

4 

Ex = 16 Ex 2 = 62 

Y 

7 

8 

3 

2 

Ey = 22 Ey 2 = i30 


Exy = 53 


Voce diria que a variavel X pode ser usada para explicar a variagao de Y ? Justifique. 

26. Muitas vezes a determinagao da capacidade de produgao instalada para certo tipo de 
industria em certas regioes e urn processo diffcil e custoso. Como alternativa, pode-se 
estimar a capacidade de produgao atraves da escolha de uma outra variavel de medida 
mais facil e que esteja linearmente relacionada com ela. 

Suponha que foram observados os valores para as variaveis: capacidade de produgao 
instalada, potencia instalada e area construfda. Com base num criterio estatfstico, qual 
das variaveis voce escolheria para estimar a capacidade de produgao instalada? 


X: 

cap. prod. inst. (ton.) 

4 

5 

4 

5 

8 9 

10 

11 12 

12 

Y: 

potencia inst. (1.000 kW) 

1 

i 

2 

3 

3 5 

5 

6 6 

6 

Z: 

area construfda (100 m) 

6 

7 

10 

10 

11 9 

12 

10 11 

14 


M 

X 

II 

oo 

o 

Ey = 

: 38, 



Ez = 

100, 




Ex 2 = 736, 

Ey 2; 

= 182, 



Ez 2 = 

= 1.048, 




Exy =361, 

Exz 

= 848, 



Eyz 

= 411. 
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27. Usando os dados da Tabela 2.1, Capftulo 2: 

(a) Construa a tabela de distributes de frequencies conjunta para as variaveis salario e 
idade, mas divida cada uma delas num certo numero de intervalos de classe. 

(b) Como poderia ser calculado o coeficiente de correlagao baseado nessa tabela? 

(c) Voce conseguiria "escrever" a formula da correlagao para dados agrupados? 

28. Langam-se, simultaneamente, uma moeda de um real e uma de um quarto de dolar. Em 
cada tentativa anotou-se o resultado, cujos dados estao resumidos na tabela abaixo. 


1/4 dolar 

1 Real 

Cara 

Coroa 

Total 

Cara 


24 

22 

46 

Coroa 


28 

26 

54 

Total 

52 

48 

100 


Fonte: Experiment!) conduzido pelos autores. 


(a) Esses dados sugerem que os resultados da moeda de um real e as de um quarto de 
dolar estao associados? 

(b) Atribua para ocorrencia cara o valor 0 e para a ocorrencia de coroa o valor 1. 
Chamando de X : o resultado do real e de X 2 o resultado do quarto de dolar, 
calcule a correlagao entre X : e X 2 . Essa medida esta de acordo com a resposta que 
voce deu anteriormente? 

29. Uma amostra de dez casais e seus respectivos salarios anuais (em s.m.) foi colhida num 
certo bairro conforme vemos na tabela abaixo. 



Casal n 2 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

Salario 

Homem (X ) 

10 

10 

10 

15 

15 

15 

15 

20 

20 

20 


Mulher (Y ) 

5 

10 

10 

5 

10 

10 

15 

10 

10 

15 


Sabe-se que: 

Si 10 .! x, =150, =2.400, 

= 1.550, Ei° =1 Yi =100, 

Ei° =1 Y? =1.100. 

(a) Encontre o salario anual medio dos homens e o seu desvio padrao. 

(b) Encontre o salario anual medio das mulheres e o seu desvio padrao. 

(c) Construa o diagrama de dispersao. 

(d) Encontre a correlagao entre o salario anual dos homens e o das mulheres. 

(e) Qual o salario medio familiar? E a variancia do salario familiar? 

(f) Se o homem e descontado em 8% e a mulher em 6%, qual o salario liquido anua 
medio familiar? E a variancia? 
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30. O departamento de vendas de certa companhia foi formado ha um ano com a admissao 
de 15vendedores. 

Nessa epoca, foram observados para cada um dos vendedores os valores de tres variaveis: 
T: resultado em um teste apropriado para vendedores; 

E: anos de experiencia de vendas; 

G: conceito do gerente de venda, quanto ao currfculo do candidato. 

O diretor da companhia resolveu agora ampliar o quadro de vendedores e pede sua 
colaboraqao para responder a algumas perguntas. Para isso, ele Ihe da informaqoes 
adicionais sobre duas variaveis: 

V: volume medio mensal de vendas em s.m.; 

Z zona da capital para a qual o vendedorfoi designado. 

O quadro de resultados e o seguinte: 


Vendedor 

T: teste 

E: experiencia 

G: conceito 
do gerente 

V: vendas 

Z: zona 

1 

8 

5 

Bom 

54 

Norte 

2 

9 

2 

Bom 

50 

Sul 

3 

7 

2 

Mau 

48 

Sul 

4 

8 

1 

Mau 

32 

Oeste 

5 

6 

4 

Bom 

30 

Sul 

6 

8 

4 

Bom 

30 

Oeste 

7 

5 

3 

Bom 

29 

Norte 

8 

5 

3 

Bom 

27 

Norte 

9 

6 

1 

Mau 

24 

Oeste 

10 

7 

3 

Mau 

24 

Oeste 

11 

4 

4 

Bom 

24 

Sul 

12 

7 

2 

Mau 

23 

Norte 

13 

3 

3 

Mau 

21 

Sul 

14 

5 

1 

Mau 

21 

Oeste 

15 

3 

2 

Bom 

16 

Norte 


Dados: St =91 St 2 =601 S TV =2.959 

S E =40 S E 2 =128 SEV = 1.260 

S V =453 I V 2 = 15.509 


Mais especificamente, o diretor Ihe pede que responda aos sete itens seguintes: 

(a) Faga o histograma da variavel V em classes de 10, tendo por limite inferior da 
primeira classe o valor 15. 

(b) Encontre a media e a variancia da variavel V. Suponha que um vendedor seja 
considerado excepcional se seu volume de vendas e dois desvios padroes superior 
a media geral. Quantos vendedores excepcionais existem na amostra? 

(c) O diretor de vendas anunciou que transferira para outra praqa todos os vendedores 
cujo volume de vendas for inferior ao 1° quartil da distribuiqao. Qual o volume 
minimo de vendas que um vendedor deve realizar para nao sertransferido? 
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(d) Os vendedores argumentam com o diretor que esse criterio nao e justo, pois ha zonas 
de venda privilegiadas. A quem voce daria razao? 

(e) Qual das tres variaveis observadas na admissao do pessoal e mais importante para 
julgar um futuro candidato ao emprego? 

(f) Qual o grau de associabilidade entre o conceito do gerente e a zona a que o vende- 
dor foi designado? Voce tem explicagao para esse resultado? 

(g) Qual o grau de associagao entre o conceito do gerente e o resultado do teste? 
E entre zona e vendas? 

31 . A segao de assistencia tecnica da Companhia MB tem cinco funcionarios: A , B, C , D e E, 
cujos tempos de servigo na companhia sao, respectivamente, um, tres, cinco, cinco e sete 
anos. 

(a) Faga um grafico representando a distribuigao de frequencia dos tempos de servigo X. 

(b) Calcule a media me(X), a variancia var(X) e a mediana md(X). 

Duas novas firmas, a Verde e a Azul, solicitaram o servigo de assistencia tecnica da 
Milsa. Um mesmo funcionario pode ser designado para atender a ambos os pedidos, 
ou dois funcionarios podem faze-lo. Assim, o par (A , B ) significa que o funcionario 
A atendera a firma Verde e o funcionario B, a firma Azul. 

(c) Escreva os 25 posslveis pares de funcionarios para atender a ambos os pedidos. 

(d) Para cada par, calcule o tempo medio de servigo X, faga a distribuigao de frequencia 
e uma representagao grafica. Compare com o resultado de (a). 

(e) Calcule para os 25 valores de X os parametros me(X), var(X) e md(X). Compare 
com os resultados obtidos em (b). Que tipo de conclusao voce poderia tirar? 

(f) Para cada par obtido em (c), calcule a variancia do par e indique-a por S 2 . Faga a 
representagao grafica da distribuigao dos valores de S 2 . 

(g) Calcule me(S 2 ) e var(S 2 ). 

(h) Indicando porX x a variavel que expressa o tempo de servigo do funcionario que ira 
atender a firma Verde e X ; o que ira atender a firma Azul, faga a distribuigao 
conjunta da variavel bidimensional (X r X 2 ). 

(i) As duas variaveis X x e X 2 sao independentes? 

fjj O que voce pode falar sobre as distribuigoes "marginais" de X 1 e X 2 ? 

(l) Suponha agora que tres firmas solicitem o servigo de assistencia tecnica. Quantas 
triplas podem serformadas? 

(m) Sem calcular todas as possibilidades, como voce acha que ficaria o histograma 
deX? E me(X)? e var(X)? 

(n) E sobre a variavel S 2 ? 

(o) A variavel tridimensional (X j; X 2 , X 3 ) teria alguma propriedade especial para as 
suas distribuigoes "marginais"? 

32. Refaga o problema anterior, admitindo agora que um mesmo funcionario nao pode 
atender a duas firmas. 
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33. Graficos quantis x quantis. Na segao 4.5 vimos como construir urn grafico q x q 
quando m = n. Suponha n > m, isto e, temos urn numero maior de observagoes de X. 
Entao, usamos as observagoes ordenadas y (1) ... s£ y e interpolamos um conjunto 

correspondente de quantis para o conjunto dos ordenados. O valor ordenado y... 


corresponde a p. 


i - 0,5 
m 


Para X, queremos um valor j tal que 


logo 


j - 0,5 _ i - 0,5 
n m ' 

j =^(1-0,5)+0,5. 


Se j for inteiro, fazemos o grafico de y (i) versus x (j) . 

Se j = k + r, onde k e inteiro e 0 < r <1, entao 

qx (^~rn^") ~ (1 " r)X(k) + r ' X(k + ir 
Exemplo: Se m = 20 e n = 40, 

j = ^(i-0,5)+0,5 =21-0,5, 

logo k = 2i - 1, r = 0,5, e fazemos o grafico de 

y (1) versus [0,5x (1) +0,5x (2) ], 

y (2) versus [0,5x (3) +0,5x (4) ] etc. 

34. Faga o grafico q x q para os dois conjuntos de dados em A e B a seguir. 


A 

65 

54 

49 

60 

70 

25 

87 

100 

70 

102 

40 

47 

B 

48 

35 

45 

50 

52 

20 

72 

102 

46 

82 

- 

- 


35. Faga graficos de dispersao unidimensionais e box plots para a variavel salario da Tabela 2.1, 
segundo a regiao de procedencia. Analise os resultados. 

36. Analise as variaveis salario e idade da Tabela 2.1, segundo o estado civil de cada indivi- 
duo. Quais conclusoes voce pode obter? 

37. Analise a populagao total do CD-Brasil, segundo as regioes geograficas. 

38. Considere os dados do Exemplo 4.14 e o seguinte criterio: valores abaixo da media 
indicam mercado em BAIXA e valores maiores ou iguais a media indicam mercado em 
ALTA. Categorize os dados segundo esse criterio e apresente os resultados numa tabela de 
dupla entrada. Calcule uma medida de associagao. O valor obtido corrobora ou nao o 
resultado obtido no Exemplo 4.14? Comente. 

39. Considere o CD-Poluigao e as variaveis CO, temperatura e umidade. Faga graficos de 
dispersao para pares de variaveis. Quais conclusoes voce pode obter? 
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Capitulo 5 


Probabilidades 


5.1 Introdugao 

Na primeira parte deste livro, vimos que a analise de um conjunto de dados por 
meio de tecnicas numericas e graficas permite que tenhamos uma boa ideia da distri- 
buigao desse conjunto. Em particular, a distribuigao de frequencias e um instrumento 
importante para avaliarmos a variabilidade das observagoes de um fenomeno aleato- 
rio. A partir dessas frequencias observadas podemos calcular medidas de posigao e 
variabilidade, como media, mediana, desvio padrao etc. Essas frequencias e medidas 
calculadas a partir dos dados sao estimativas de quantidades desconhecidas, associa- 
das em geral a populates das quais os dados foram extrafdos na forma de amostras. 
Em particular, as frequencias (relativas) sao estimativas de probabilidades de ocorren- 
cias de certos eventos de interesse. Com suposigoes adequadas, e sem observarmos 
diretamente o fenomeno aleatorio de interesse, podemos criar um modelo teorico que 
reproduza de maneira razoavel a distribuigao das frequencias, quando o fenomeno e 
observado diretamente. Tais modelos sao chamados modelos probabi1 1 sticos e serao 
objeto de estudo neste capitulo e nos subsequentes. 

Exemplo 5.1 Queremos estudar as frequencias de ocorrencias das faces de um dado. 
Um procedimento a adotar seria langar o dado certo numero de vezes, n, e depois 
contar o numero n i de vezes em que ocorre a face i, i = 1, 2, ..., 6. As proporgoes a/n 
determinam a distribuigao de frequencias do experimento realizado. Langando o dado 
um numero n'(n' * n) de vezes, terfamos outra distribuigao de frequencias, mas com um 
padrao que esperamos ser muito proximo do anterior. 

0 modelo probabi1 1 stico pode ser construfdo por meio de premissas, como se segue. 

Primeiro, observamos que so podem ocorrer seis faces; a segunda consideragao que 
se faz e que o dado seja perfeitamente equilibrado, de modo a nao favorecer alguma face 
em particular. Com essas suposigoes, cada face deve ocorrer o mesmo numero de vezes 
quando o dado e langado n vezes, e, portanto, a proporgao de ocorrencia de cada face 
deve ser 1/6. Nessas condigoes, o modelo teorico (ou probabi I istico) para o experimento 
e dado na Tabela 5.1. 
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Tabela 5.1: Modelo para lanpamento de um dado. 


Face 

1 

2 

3 

4 

5 

6 

Total 

Frequencia teorica 

1/6 

1/6 

1/6 

1/6 

1/6 

1/6 

1 


Exemplo 5.2 De um grupo de duas mulheres (M) e tres homens (H), uma pessoa sera 
sorteada para presidir uma reuniao. Queremos saber as probabilidades de o presidente 
ser do sexo masculino ou feminino. Observamos que: (i) so existem duas possibilida- 
des: ou a pessoa sorteada e do sexo masculino (H) ou e do sexo feminino (M); (ii) 
supondo que o sorteio seja honesto e que cada pessoa tenha igual chance de ser sorteada, 
teremos o modelo probabiIistico da Tabela 5.2 para o experimento. 


Tabela 5.2: Modelo teorico para o Exemplo 5.2. 


Sexo 

M 

H 

Total 

Frequencia teorica 

2/5 

3/5 

1 


Dos exemplos acima, verificamos que todo experimento ou fenomeno que envolva 
um elemento casual tera seu modelo probabi I istico especificado quando estabelecermos: 

(a) um espago amostral, Q, que consiste, no caso discrete, da enumeragao (finita 
ou infinita) de todos os resultados possiveis do experimento em questao: 

Q = {co 1( co 2 , ..., co n , ...} 

(os elementos de Q sao os pontos amostrais ou eventos elementares); 

(b) uma probabilidade, P(co), para cada ponto amostral, de tal sorte que seja possfvel 
encontrar a probabilidade P(A) de qualquer subconjunto A de Q, isto e, a proba¬ 
bilidade do que chamaremos de um evento aleatorio ou simplesmente evento. 

Para ilustrar graficamente eventos, e costume utilizar-se os mesmos diagramas comumente 
usados na teoria dos conjuntos. Veja Morettin et al. (2005). Na Figura 5.1 ilustramos por um 
quadrado o espago amostral, por cfrculos os eventos A e B e por pontos os pontos amostrais. 

Figura 5.1 : Espapo amostral e eventos 
aleatorios. 
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Exemplo 5.3 Langamos uma moeda duas vezes. Se C indicar cara e R indicar coroa, 
entao um espago amostral sera 

Q = {co lf co 2 , co 3 , co 4 } 

onde ojj = (C, C ), co 2 = (C, R), co 3 = (R, C ), co 4 = (R, R). E razoavel supor que cada ponto 
ccr tenha probabilidade 1/4, se a moeda for perfeitamente simetrica e homogenea. 

Se designarmos por A o evento que consiste na obtengao de faces iguais nos dois 
langamentos, entao 

P (A) = P {tOj, co 4 } = 1/4 + 1/4 = 1/2. 

De modo geral, se A for qualquer evento de Q, entao 

P (A) = XP(ca), (5.1) 

i 

onde a soma e estendida a todos os pontos amostrais or e A. 

Exemplo 5.4. Uma fabrica produz determinado artigo. Da linha de produgao sao reti- 
rados tres artigos, e cada um e classificado como bom (B) ou defeituoso (D). Um 
espago amostral do experimento e 

Q = {BBB, BBD, BDB, DBB, DDB, DBD, BDD, DDD}. 

Se A designar o evento que consiste em obter dois artigos defeituosos, entao 
A = {DDB, DBD, BDD}. 

Exemplo 5.5, Considere o experimento que consiste em retirar uma lampada de um lote 
e medir seu "tempo de vida" antes de se queimar. Um espago amostral conveniente e 

Q = {t E JR: t & 0}, 

isto e, o conjunto de todos os numeros reais nao negativos. Se A indicar o evento "o 
tempo de vida da lampada e inferior a 20 horas", entao A = {t: 0 t < 20}. Esse e 
um exemplo de um espago amostral continuo, contrastado com os anteriores, que 
sao discretos. 


olemas 


1. Uma uma conterm duas bolas brancas (B) e tres bolas vermelhas (V). Retira-se uma bola 
ao acaso da uma. Se for branca, langa-se uma moeda; se for vermelha, ela e devolvida 
a urna e retira-se outra. De um espago amostral para o experimento. 


2. Lance um dado ate que a face 5 aparega pela primeira vez. Enumere os possfveis resulta- 
dos desse experimento. 


3. Tres jogadores A, B e C disputam um torneio de tenis. Inicialmente, A joga com B e o 
vencedor joga com C, e assim por diante. O torneio termina quando um jogador ganha 
duas vezes em seguida ou quando sao disputadas, ao todo, quatro partidas. Quais sao 
os resultados possfveis do torneio? 
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4. Duas moedas sao langadas. De dois possfveis espagos amostrais para esse experimento. 

Represente um deles como o produto cartesiano de dois outros espagos amostrais 

(ver Morettin etal., 1999, para o conceito de produto cartesiano). 

5. Uma moeda e um dado sao langados. De um espago amostral do experimento e depois 

represente-o como produto cartesiano dos dois espagos amostrais, correspondente aos 

experimentos considerados individualmente. 

6. Defina um espago amostral para cada um dos seguintes experimentos aleatorios: 

(a) Langamento de dois dados; anota-se a configuragao obtida. 

(b) Numa linha de produgao conta-se o numero de pegas defeituosas num intervalo de 
uma hora. 

(c) Investigam-se famflias com tres criangas, anotando-se a configuragao segundo o sexo. 

(d) Numa entrevista telefonica com 250 assinantes, anota-se se o proprietario tern ou 
nao maquina de secar roupa. 

(e) Mede-se a duragao de lampadas, deixando-as acesas ate que se queimem. 

(f) Um fichario com dez nomes contem tres nomes de mulheres. Seleciona-se ficha apos 
ficha, ate o ultimo nome de mulher ser selecionado, e anota-se o numero de fichas 
selecionadas. 

(g) Langa-se uma moeda ate aparecer cara e anota-se o numero de langamentos. 

(h) Um relogio mecanico pode parar a qualquer momento por falha tecnica. Mede-se o 
angulo (em graus) que o ponteiro dos segundos forma com o eixo imaginario orien- 
tado do centro ao numero 12. 

(i) Mesmo enunciado anterior, mas supondo que o relogio seja eletrico e, portanto, seu 
ponteiro dos segundos mova-se continuamente. 

(j) De um grupo de cinco pessoas {A, B, C, D, E}, sorteiam-se duas, uma apos outra, 
com reposigao, e anota-se a configuragao formada. 

(l) Mesmo enunciado que (j), sem reposigao. 

(m) Mesmo enunciado que (j), mas as duas selecionadas simultaneamente. 

(n) De cada familia entrevistada numa pesquisa, anotam-se a classe social a que perten- 
ce (A, B, C, D) e o estado civil do chefe da familia. 

5.2 Algumas Propriedades 

Sendo o modelo probabilistico um modelo teorico para as frequences relativas, de 
suas propriedades podemos obter algumas das propriedades das probabilidades, que 
estudaremos a seguir. 

Como a frequencia relativa e um numero entre 0 e 1, temos que 

0 < P (A) < 1, (5.2) 

para qualquer evento A. Sera util considerar o espago todo Qeo conjunto vazio 0 como 
eventos. 0 primeiro e denominado evento certo e 0 segundo, evento impossivel, e temos 

P(Q) = 1, P(o) =0. 


(5.3) 
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Exemplo 5.6. Na Tabela 5.3 temos dados referentes a alunos matriculados em quatro 
cursos de uma universidade em dado ano. 


Tabela 5.3: Distribuicao de alunos segundo o sexo e escolha de curso. 


—_ Sexo 

Curso ——— 

Homens 

(H) 

Mulheres 

(F) 

Total 

Matematica Pura (M) 


70 


40 

110 

Matematica Aplicada (A) 


15 


15 | 

30 

Estatfstica ( E] 


10 


20 

30 

Computacao (C) 


20 


10 

30 

Total 

115 

85 

200 


Vamos indicar por M o evento que ocorre quando, escolhendo-se ao acaso um 
aluno do conjunto desses quatro cursos, ele for um estudante de Matematica Pura. A, 
E, C, H e F tern significados analogos. Dessa maneira, vemos que P(E) = 30/200, ao 
passo que P(H) = 115/200. 

Dados os eventos A e H, podemos considerar dois novos eventos: 

• A U H, chamado a reuni ao de A e H, quando pelo menos um dos eventos ocorre; 

• A n H, chamado a intersecgao de A e H, quando A e H ocorrem simultaneamente. 
E facil ver que P(A n H ) = 15/200, pois o aluno escolhido tera de estar, ao mesmo 

tempo, matriculado no curso de Matematica Aplicada e ser homem. 

Vemos que P(A) = 30/200 e P(H) = 115/200; suponha que nosso calculo para 
P(A U H) fosse 

P (A U H ) = P (A) + P (H ) = -2qq +200 = 200 ' 


Se assim o fizessemos, estariamos contando duas vezes os alunos que sao homens 
e estao matriculados no curso de Matematica Aplicada, como destacado na Tabela 5.3. 
Portanto, a resposta correta e 


P(A U H ) = P(A) + P(H ) - P (A n H ) = -jHq 


_ 130 
200 


No entanto, considerando-se os eventos A e C, vemos que P(A) = 30/200, P(C) = 30/200 
e P(A U C) = 60/200 = P(A) + P(C). Nesse caso, os eventos A e C sao disjuntos ou mutua- 
mente exclusivos, pois se A ocorre, entao C nao ocorre e vice-versa. Aqui, A n C = 0 e 
p(A n C)=0. 

Portanto, se U e V sao dois eventos quaisquer, teremos a chamada regra da adigao 
de probabilidades 

P(U U V) =P(U ) + P (V ) - P(U n V ), (5.4) 

que se reduz a 

P(U U V) = P(U ) +P(V), 

se U e V sao eventos mutuamente exclusivos. Veja o Problema 58. 


(5.5) 
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Suponha, agora, que estejamos somente interessados em saber se um estudante es- 
colhido ao acaso esta matriculado como aluno de Matematica Pura, Aplicada, Estatistica 
ou Computagao, nao interessando saber se e homem ou mulher. Seja B = M u E u C. 
Entao A UB = QeA fiB = 0 . Dizemos que A e B sao complementares e P(A) = 30/200, 
P(B) = 110/200 + 30/200 + 30/200 = 170/200, isto e, P(A) + P(B) = 1. 

De modo geral, vamos indicar por A c o complementar de um evento qualquer A, e 
teremos entao 


P (A) +P(A C ) =1. 


(5.6) 


As operagoes de reuniao, intersecgao e complementagao entre eventos possuem proprie- 
dades analogas aquelas validas para operagoes entre conjuntos. Ver Morettin et al. (2005). 
Por exemplo: 


(a) (A n B) c = A c U B c 

(b) (A U B) c = A c n B c 

(c) A n 0 =0, A n Q = A 

(d) 0 C = Q, Q c = 0 


(e) A n A c = 0 

(f) A U A c = Q 

(g) A U 0 = A, A 110=0 

(h) A n (B u C) =(A n B) u (A n C) 


Vejamos um exemplo de aplicagao das propriedades das probabilidades. 

Exemplo 5.7 Consideremos um experimento aleatorio e os eventos A e B associados, 
tais que P(A) = 1/2, P(B) = 1/3 e P(A n B) = 1/4. Entao temos: 

(a) P(A C ) =1- P(A) =1- 1/2 =1/2; 

P(B C ) = 1 - P(B) = 1 - 1/3 = 2/3. 

(b) P(A U B) = P(A) + P(B) - P(A fl B) =1/2 +1/3 - 1/4 =7/12. 

(c) P(A C n B c ) = P[(A U B) c ] = 1 - P(A U B) = 1 - 7/12 = 5/12. 

(d) P(A C U B c ) = P[(A n B) c ] =1- P(A n B) =1- 1/4 =3/4. 

(e) Calculemos P(A C n B), isto e, a probabilidade de que ocorra B e nao ocorra A. 
Podemos escrever 


B = (A n B) U (A c n B), 

ou seja, B pode ocorrer com A ou (exclusivo) com A c . Logo, 

P (B) = P (A n B) + P (A c n B ), 

do que decorre 

P(A C n B) = P (B ) - P (A n B ) = 1/3 - 1/4 = 1/12. 


Consideremos, agora, uma situagao historicamente importante, a saber, aquela em 
que temos um espago amostral finito, Q = {co v ..., co n }, em que todos os pontos tern a 
mesma probabilidade 1/n. Se A for um evento contendo m pontos amostrais, entao 



Nesse caso, nao e necessario explicitar completamente Q e A, bastando calcular men, 
chamados, respectivamente, numero de casos favoraveis e numero de casos possiveis. Para 
tanto, sao usados os metodos classicos de contagem da analise combinatoria. Um principio 
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fundamental de contagem nos diz que, se uma tarefa pode ser executada em duas etapas, a 
primeira podendo ser realizada de p maneiras e a segunda de q maneiras, entao as duas podem 
ser realizadas simultaneamente de pq maneiras. Esse e o chamado principio multiplicativo. 


Exemplo 5.8. Suponha que num lote com 20 pegas existam cinco defeituosas. Esco- 
Ihemos quatro pegas do lote ao acaso, ou seja, uma amostra de quatro elementos, de 
modo que a ordem dos elementos seja irrelevante. 

Dessa maneira, o numero de amostras com quatro elementos que podemos extrair do 

lote e ^°j, ou seja, combinagoes de 20 elementos, tornados quatro a quatro. Suponha que 
queiramos calcular a probabilidade de se escolher duas defeituosas na amostra. Pelo visto 
acima, (^j e o numero de pontos do espago amostral. Seja A o evento que consiste em esco¬ 


lher duas defeituosas na amostra. Segue-se que m = 


X 5 


, pois podemos escolher na 


amostra de quatro elementos duas defeituosas e duas nao-defeituosas simultaneamente de 
maneiras, usando 0 principio multiplicativo. Logo, 


2 A 2 


P (A) = 


= 0,217. 


Exemplo 5.9. 0 jogo da M egasena consiste em escolher 6 dezenas dentre as 60 dezenas (01, 
02,..., 59, 60). O jogador pode marcar num cartao de 6 a 15 dezenas. Os custos (em reais) de 
cada jogo estao relacionados abaixo. 


Dezenas 

Custo 

6 

1,00 

7 

7,00 

8 

28,00 

9 

84,00 

10 

210,00 

11 

462,00 

12 

924,00 

13 

1.716,00 

14 

3.005,00 

15 

5.005,00 


Temos, ao todo, (^j = 50.063.860 possibilidades. Portanto, com urn jogo unico de 

R$ 1,00 (seis dezenas), a probabilidade de ganhar 0 premio maximo e 1/ j, ou seja, aproxi- 
madamente, uma chance em 50 milhoes. Por que 0 jogo com 7 dezenas custa R$ 7,00? Porque 
com 7 dezenas podemos formar Q = 7 jogos de 6 dezenas. Ou seja, fazer urn jogo com 








no 
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7 dezenas ou 7 jogos com 6 dezenas sao agoes equivalentes, em termos de probabilidade de 
ganhar. Do mesmo modo, um jogo de 15 dezenas custa R$ 5.005,00, porque com 15 deze- 



Portanto, e mais facil preencher um 


boleto com 15 dezenas do que 5.005 boletos com 6 dezenas, ja que as probabilidades 
associadas sao iguais. 



7. No Problema 4, liste os eventos: 

(a) pelo menos uma cara; 

(b) duas caras; 

(c) o complementer do evento em (b). 

8. Expresse em termos de operagoes entre eventos: 

(a) A ocorre mas B nao ocorre; 

(b) exatamente um dos eventos A e B ocorre; 

(c) nenhum dos dois eventos A e B ocorre. 

9. No espago amostral do Problema 3, atribua a cada ponto contendo k letras a probabili¬ 
dade l/2 k (assim, AA tern probabilidade 1/4). 

(a) Mostre que a soma das probabilidades dos pontos do espago amostral e 1. 

(b) Calcule a probabilidade de que A venga (um jogador vence quando ganha duas 
partidas seguidas). Em seguida, calcule a probabilidade de que B venga. 

(c) Qual a probabilidade de que nao haja decisao? 

10. No Problema 2, suponha que 5 indique o aparecimento da face 5 e Q indique que 
apareceu outra face qualquer diferente da 5. Atribua probabilidade (5/6) k (1/6) a cada 
ponto com k letras iguais a Q seguidas de 5. 

(a) Mostre que a soma das probabilidades dos pontos amostrais e igual a um (aqui voce 
deve usar o resultado da soma dos termos de uma sequencia geometrica infinita). 

(b) Calcule a probabilidade de que a face 5 aparega apostres langamentos do dado. 

11. Dentre seis numeros positivos e oito negativos, dois numeros sao escolhidos ao acaso 
(sem reposigao) e multiplicados. Qual a probabilidade de que o produto seja positivo? 

12. Considere o langamento de dois dados. Considere os eventos: A = soma dos numeros 


obtidos igual a 9, e B = numero no primeiro dado maior ou igual a 4. Enumere os 
elementos de A e B. Obtenha A U B, A D B e A c . 


13. Obtenha as probabilidades dos eventos que aparecem nos Problemas 7 e 12. 


14. Que suposigoes devem ser feitas para que os resultados dos experimentos abaixo possam 
ser considerados equiprovaveis? 

(a) Langamento de um dado. 

(b) Opiniao de moradores de uma cidade sobre um projeto governamental. 

(c) Prego de uma agao no fim da proximo semana. 
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5.3 Probabilidade Condicional e Independence 


Voltemos a Tabela 5.3 do Exemplo 5.6. Dado que um estudante, escolhido ao acaso, 
esteja matriculado no curso de Estatistica, a probabilidade de que seja mulher e 20/30 = 2/3. 
Isso porque, do total de 30 alunos que estudam Estatistica, 20 sao mulheres. Escrevemos 

2 

P (mulher I Estatistica) = j . 


Para dois eventos quaisquer A e B, sendo P(B) > 0, definimos a probabilidade 
condicional de A dado B, P(A|B), como sendo 


P(AlB) 


P(A n B) 
P(B) 


(5.7) 


Para o exemplo mencionado, se B e A indicam, respectivamente, os eventos "aluno 
matriculado em Estatistica" e "aluno e mulher", entao 


como haviamos obtido. 


P(AlB) 


20/200 _ 2 
30/200 3 ’ 


Observe que P(A) = P(mulher) = 85/200 = 17/40, e com a informagao de que B 
ocorreu (o aluno e matriculado em Estatistica), obtemos P(AlB) = 2/3. Podemos dizer 
que P(A) e a probabilidade a priori de A e, com a informagao adicional de que B 
ocorreu, obtemos a probabilidade a posteriori P(AlB). Note que, nesse caso, P(AlB) > 
P(A), logo a informagao de que B ocorreu aumentou a chance de A ocorrer. 

Da relagao (5.7) obtemos a chamada regra do produto de probabilidades, 

P (A n B) = P (B ) P (AlB). (5.8) 


Exemplo 5.10. Uma urna contem duas bolas brancas (B) e tres vermelhas (V). Suponha 
que sao sorteadas duas bolas ao acaso, sem reposigao. Isso significa que escolhemos a 
primeira bola, verificamos sua cor e nao a devolvemos a urna; misturamos as bolas restan- 
tes e retiramos a segunda. O diagrama em arvore da Figura 5.2 ilustra as possibilidades. 
Em cada "galho" da arvore estao indicadas as probabilidades de ocorrencia, sendo que 
para as segundas bolas as probabilidades sao condicionais. A probabilidade do resultado 
conjunto e dada, entao, por (5.8). Veja a Tabela 5.4. 


Figura 5.2: Diagrama em arvore para a extracao de 
duas bolas de uma urna, sem reposigao. 
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Se A indicar o evento "bola branca na segunda extragao", entao 

P (A) = P(BB) + P(VB) = — +— =—. 

20 20 5 

Tabela 5.4: Resultados e probabilidades para o 
experimento do Exemplo 5.10. 


Resultados 

Probabilidades 

BB 

2/5x1/4 = 2/20 

BV 

2/5x3/4 = 6/20 

VB 

3/5 x 2/4 =6/20 

VV 

3/5x2/4 = 6/20 

Total 

1 


Exemplo 5.11. Imagine, agora, que as duas extragoes sao feitas da mesma urna do 
exemplo anterior, mas a primeira bola e reposta na urna antes da extragao da segun¬ 
da. Nessas condigoes, as extragoes sao independentes, pois o resultado de urna ex¬ 
tragao nao tern influencia no resultado da outra. Obtemos a situagao da Figura 5.3 e 
da Tabela 5.5. 


Figura 5.3: Diagrama em arvore para a extrapao de 
duas bolas de uma urna, com reposipao. 



Tabela 5.5: Resultados e probabilidades para o 
experimento do Exemplo 5.11. 


Resultados 

Probabilidades 

BB 

2/5x2/5=4/25 

BV 

2/5x3/5=6/25 

VB 

3/5x2/5=6/25 

VV 

3/5x3/5=9/25 

Total 

1 


Observe que, aqui, 

P (branca na 2 a I branca na l a ) = 2/5 = P (branca na 2 a ), 
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ou seja, se indicarmos por A e B os eventos "bola branca na segunda extragao" e "bola 
branca na primeira extragao'', respectivamente, entao P (A | B) = P(A). Nesse caso, dize- 
mos que o evento A independe do evento B e, usando (5.8), temos 

P(A n B) = P (A) P (B ). (5.9) 

E facil ver que se A independe de B, entao B independe de A — dizemos que A e B 
sao independentes. A formula (5.9) pode ser tomada como definigao de independence 
entre dois eventos, ou seja, A e B sao independentes se, e somente se, (5.9) for valida. 

Exemplo 5.12. Considere ainda a urna dos dois exemplos anteriores, mas vamos fazer tres 
extragoes sem reposigao. Indiquemos por V ( ou B i a obtengao de bola vermelha ou branca 
na i-esima extragao, respectivamente, i = 1, 2, 3. Obtemos a Figura 5.4 e a Tabela 5.6. 


Figura 5.4: Diagrama em arvore para a extragao de 
tres bolas de uma urna, sem reposigao. 



Tabela 5.6: Resultados e probabilidades para o experi- 
mento do Exemplo 5.12. 


Resultados 

Probabilidades 

b,b 2 v 3 

2/5 x 1/4x1 =2/20=6/60 

b,v 2 b 3 

2/5x3/4x1/3 = 6/60 

B] V 2 V 3 

2/5 x 3/4 x 2/3= 12/60 

V,B 2 B 3 

3/5x2/4x1/3 = 6/60 

v,b 2 v 3 

3/5 x 2/4 x 2/3= 12/60 

V,V 2 B 3 

3/5 x 2/4 x 2/3= 12/60 

V,v 2 v 3 

3/5x2/4x1/3 = 6/60 

Total 

60/60=1 


Observe que P(B 2 | B^ = 1/4, ao passo que P(V 3 |B 1 n B 2 ) = 1; dai, 

P(B 1 n b 2 n v 3 ) =p(b 1 ) p(b 2 |Bj) p(v 3 |b 1 n b 2 ) = 2/5 x 1/4 x 1 = 1 / 10 . 
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De modo geral, dados tres eventos A, B e C, temos que 

P (A n B nc) = P (A) P (B | A) P (c IA n B). (5.10) 

Essa relagao pode ser estendida para um numero finito qualquer de eventos. Veja o 
Problema 60. 

Exemplo 5.13. A teoria da confiabilidade estuda sistemas e seus componentes, como 
por exemplo sistemas mecanicos e eletronicos (um automovel ou um computador) e 
sistemas biologicos, como o corpo humano. 0 objetivo da teoria e estudar as relagoes 
entre o funcionamento dos componentes e do sistema. A Figura 5.5 (a) ilustra um 
sistema composto de dois componentes ligados em serie. 


Figura 5.5: Sistema com dois componentes (a) em serie (b) em paralelo. 



0 sistema da figura funcionara se os componentes 1 e 2 funcionarem simultanea- 
mente. Se um dos componentes falhar, o sistema tambem falhara. Supondo que os 
componentes funcionem independentemente, e se p, for a probabilidade de o compo- 
nente i (i = 1,2) funcionar, entao a probabilidade de o sistema funcionar sera 

P(F) =P(A 1 n A 2 ) =P(A 1 )P(A 2 ) =p 1 p 2 , 

onde indicamos por F o evento "o sistema funciona" e por A ( o evento "o componente 
i funciona", i = 1, 2. 

A probabilidade p ; e a chamada confiabilidade do componente i e P(F) = h(p x , p 2 ) 
= p 2 p 2 a confiabilidade do sistema. 

Se os componentes 1 e 2 estiverem em paralelo, como na Figura 5.5 (b), entao o 
sistema funcionara se pelo menos um dos dois componentes funcionar. Ou seja, 

p(f)=p(a 1 ua 2 )=p(A x ) + p(a 2 ) - p(A x n a 2 ) = p 2 + p 2 - p : p 2 
e a confiabilidade do sistema e h(p lf p 2 ) = p 2 + p 2 - p 2 p 2 . 

Vejamos agora o conceito de independence para tres eventos: dizemos que os 
eventos A, B e C sao independentes se, e somente se, 

P (A D B) = P (A) P (B), 

P (A n C ) = P (A) P (C ), 

P(BflC) = P(B) P(C ), 

P (A n B n C ) = P(A) P(B) P(C ). 


(5.11) 
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Se apenas as tres primeiras relagoes de (5.11) estiverem satisfeitas, dizemos que os even- 
tos A, B e C sao mutuamente independentes. E possfvel que tres eventos sejam mutuamente 
independentes, mas nao sejam completamente independentes. Veja o Problema 59. 

A definigao pode ser estendida facilmente para urn numero finito qualquer de eventos. 
Veja o Problema 61. 


emqs 


15. Considere uma urna contendo tres bolas pretas e cinco bolas vermelhas. Retire duas 
bolas da urna, sem reposigao. 

(a) Obtenha os resultados possfveis e as respectivas probabilidades. 

(b) Mesmo problema, para extragoes com reposigao. 

16. No problema anterior, calcule as probabilidades dos eventos: 

(a) Bola preta na primeira e segunda extragoes. 

(b) Bola preta na segunda extragao. 

(c) Bola vermelha na primeira extragao. 

1 7. A probabilidade de que A resolva urn problema e de 2/3, e a probabilidade de que B o 
resolva e de 3/4. Se ambos tentarem independentemente, qual a probabilidade de o 
problema ser resolvido? 

18. Urn dado e viciado, de tal forma que a probabilidade de sair urn certo ponto e proporcional 
ao seu valor (por exemplo, o ponto 6 e tres vezes mais provavel de sair do que o ponto 2). 
Calcular: 

(a) a probabilidade de sair 5, sabendo-se que o ponto que saiu e impar; 

(b) a probabilidade de tirar urn numero par, sabendo-se que saiu urn numero maior que 3. 

19. As probabilidades de que dois eventos independentes ocorram sao p e q, respectivamen- 
te. Qual a probabilidade: 

(a) de que nenhum desses eventos ocorra? 

(b) de que pelo menos urn desses eventos ocorra? 

20. Na figura ao lado temos um sistema com tres componentes fun- 
cionando independentemente, com confiabilidades p 1( p 2 e p 3 . 

Obtenha a confiabilidade do sistema. 

21. Na tabela abaixo, os numeros que aparecem sao probabilidades relacionadas com a 
ocorrencia de A, B, A ft B etc. Assim, P (A) = 0,10, enquanto P (A fl B) = 0,04. 



B 

B c 

Total 

A 

0,04 

0,06 

0,10 

A c 

0,08 

0,82 

0,90 

Total 

0,12 

0,88 

1,00 



Verifique se A e B sao independentes. 
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22. Supondo que todos os componentes do sistema da figura ao lado te- 
nham a mesma confiabilidade p e funcionem independentemente, ob- 
tenha a confiabilidade do sistema. 

5.4 O Teorema de Bayes 

Uma das relagoes mais importantes envolvendo probabilidades condicionais e 
dada pelo Teorema de Bayes. A versao mais simples desse teorema e dada pela 
formula (5.12): 



P (A | B ) 


P(AflB) _ P (A) ■ P(B|A) 
P(B ) P(B ) 


(5.12) 


Como salientamos na segao anterior, temos a probabilidade inicial P(A) e, dada a infor- 
magao de que B ocorreu (ou dada a suposigao de que B venha a ocorrer), obtemos a proba¬ 
bilidade a posteriori P(AIB), dada por (5.12). Ou seja, atualizamos a probabilidade inicial, 

multiplicando-a por . Observe que P(A|B) > P(A) se P(B|A) > P(B). 

P (B) 

A forma geral do Teorema de Bayes sera introduzida por urn exemplo. 


Exemplo 5.14. Temos cinco urnas, cada uma com seis bolas. Duas dessas urnas 
(tipo C 3 ) tern 3 bolas brancas, duas outras (tipo C 2 ) tern 2 bolas brancas, e a ultima 
uma (tipo C 3 ) tern 6 bolas brancas. Escolhemos uma uma ao acaso e dela retiramos 
uma bola. Qual a probabilidade de a uma escolhida ser do tipo C 3 , sabendo-se que a 
bola sorteada e branca? 

Na Figura 5.6 temos esquematizados o espago amostral e os eventos de interesse. 


Figura 5.6: Espapo amostral e eventos para o 
Exemplo 5.14. 



Queremos encontrar P(C 3 |B), sabendo que 

P(C 3 ) =2/5, P(B|C 1 ) =1/2, 
P(C 2 ) =2/5, P(B|C 2 ) =1/3, 
P(C 3 ) = 1/5, P(B|C 3 ) = 1. 
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Da definigao de probabilidade condicional, temos 

D, riH i_ P(C 3 nB) _ P(C 3 )P(B|C 3 ) (5.13) 

1 3 ‘ ' P (B ) P (B ) 

A segunda igualdade e devida a formula (5.8). 

Precisamos encontrar o valor de P(B), ja que o numerador e conhecido. Como C 1( 
C 2 e C 3 sao eventos mutuamente exclusivos, e reunidos formam o espago amostral 
complete, podemos decompor o evento B na reuniao de tres outros, tambem mutua¬ 
mente exclusivos, como segue (ver tambem a Figura 5.6): 

B = (C 3 n B) U (C 2 n B) U (C 3 n B), (5.14) 

e entao 

p(B) = p(C! n B) +P(C 2 n B) +P(C 3 n B) 

= p (C 3 ) P(B|C 1 ) +P(C 2 ) P(B|C 2 ) +P(C 3 ) P (B | C 3 ) 



Substituindo esse resultado em (5.13), obtemos 


P(C 3 IB) 


1/5x1 _ 3 
8/15 8 ' 


Podemos, agora, generalizar os resultados acima do seguinte modo: seja {C 1( C 2 , ..., C n } 
uma partigao do espago amostral Q, isto e, 

Ci n C j = 0 , sempre que i * j, 

C 1 U C 2 U ... U C n =Q. 

Considere urn evento qualquer A em Q. Supomos conhecidas as probabilidades 
P(C,) eP(AICi), I =1, 2.n. 

Entao, temos o seguinte resultado, ilustrado pela Figura 5.7. 


Figura 5.7: Partigao de um espapo amostral. 
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Teorema 5.1 (Bayes) A probabilidade de ocorrencia do evento C i( supondo-se a ocor- 
rencia do evento A, e dada por 


P (C,|A) 


P (Cj)P (A|Cj) 
S i " =1 P(C j )P(A|C j ) ' 


(5.15) 


para todo i = 1, 2, n. 

Podemos pensar C 1( C n como um conjunto de hipoteses, sendo somente uma 
delas verdadeira. Dado que A ocorreu, a probabilidade inicial de C i , P(C ), e modifica- 
da de modo a se obter P(C j |A), dada por (5.15). Passamos da probabilidade a priori 
P(C i ) para a probabilidade a posteriori P(C ; I A), multiplicando a primeira por 


P (A | C j) 

E J " =1 P(C j )P(A|C j ) 


(5.16) 


Para A fixado, as probabilidades P(A|C i ) em (5.15) sao denominadas verossi mi I han- 
gas das hi poteses C 1( C 2 , ..., C n . Vemos que P(C i |A) > P (C ; ) se (5.16) for maior do que 
um, isto e, se P(A|C i ) > P(A), onde P(A) e o denominador de (5.16). Observe que esse 
denominador e uma media ponderada dos P(A|Cj) e os pesos sao as probabilidades 
P(C ), que tern soma unitaria. Como o numerador e sempre uma das parcelas do denomi¬ 
nador P(A), torna-se indispensavel o uso de um novo indice, j, na decomposigao deste. 


Exemplo 5.15. Para selecionar seus funcionarios, uma empresa oferece aos candidates 
um curso de treinamento durante uma semana. No final do curso, eles sao submetidos a 
uma prova e 25% sao classificados como bons (B), 50% como medios (M) e os restantes 
25% como fracos (F). Para facilitar a selegao, a empresa pretende substituir o treinamen¬ 
to por um teste contendo questoes referentes a conhecimentos gerais e especificos. Para 
isso, gostaria de conhecer qual a probabilidade de um individuo aprovado no teste ser 
considerado fraco, caso fizesse o curso. Assim, neste ano, antes do inicio do curso, os 
candidates foram submetidos ao teste e receberam o conceito aprovado (A) ou reprova- 
do (R). No final do curso, obtiveram-se as seguintes probabilidades condicionais: 

P (A | B ) = 0,80, P (AIM) =0,50, P (A|F ) = 0,20. 


Queremos encontrar P(F |A) e, pelo Teorema de Bayes, essa probabilidade e dada por 

P (A |F )P(F ) 


P(F|A) = 


P (A|B)P{B) + P (AIM )P (M ) + P (A|F )P (F 
(0,20)(0,25) 


(0,80)(0,25) + (0,50X0,50) + (0,20)(0,25) 


= 0 , 10 . 







5.4 0 TEOREMA DE BAYES 


119 


Entao, apenas 10% dos aprovados e que seriam classificados como fracos durante o 
curso. De modo analogo podemos encontrar P(B |A) = 0,40 e P(M |A) = 0,50, que pode- 
riam fornecer subsfdios para ajudar na decisao de substituir o treinamento pelo teste. 

Um grafico em arvore pode ajudar bastante na solugao de um problema envolven- 
do o Teorema de Bayes. Desse modo, para o Exemplo 5.15, teremos a Figura 5.8 e a 
Tabela 5.7. Assim, o numerador de P(F |A) esta assinalado com um pequeno circulo, 
ao passo que o denominador e a soma das tres parcelas assinaladas com asterisco. 


Figura 5.8: Diagrama em arvore para o Exemplo 5.15. 



Tabela 5.7: Resultados e probabilidades para o Exemplo 5.15. 


Resultados 

Probabilidades 

BA 

(0,25) (0,801 = 0,20* 

BR 

(0,25) (0,20)=0,05 

MA 

(0,50) (0,50) = 0,25* 

MR 

(0,50) (0,50) = 0,25 

FA 

(0,25) (0,20) = 0,05*° 

FR 

(0,25) (0,80) =0,20 


O Teorema de Bayes, que aparentemente poderia ser encarado como mais um resulta- 
do na teoria de probabilidades, tern importance fundamental, pois fornece a base para 
uma abordagem da inferencia estatfstica conhecida como inferencia bayesiana. Esse pon- 
to sera abordado brevemente no Capitulo 11. 

O Teorema de Bayes fornece um mecanismo formal para atualizar probabilidades, 
como ja vimos acima. Vejamos mais um exemplo para ilustrar esse ponto. 

Exemplo 5.16. A administragao de um fundo de investimentos em agoes pretende 
divulgar, apos o encerramento do pregao, a probabilidade de queda de um fndice da 
bolsa no dia seguinte, baseando-se nas informagoes disponiveis ate aquele momento. 
Suponha que a previsao inicial seja de 0,10. Apos encerrado o pregao, nova infor- 
magao sugere uma alta do dolar frente ao real. A experience passada indica que, 
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quando houve queda da bolsa no dia seguinte, 20% das vezes foram precedidas por 
esse tipo de notfcia, enquanto, nos dias em que a bolsa esteve em alta, apenas em 5% 
das vezes houve esse tipo de notfcia no dia anterior. 

Chamando de E o evento que indica "queda da bolsa", a sua probabilidade a 
priori e P(E) = 0,10, enquanto a probabilidade de alta e P(E c ) = 0,90. Se B indicar "alta 
do dolar”, entao as verossimilhangas sao dadas por 

P (B |E ) = 0,20, P (B|E c ) = 0,05. 


Logo, pelo Teorema de Bayes, teremos que 


ou seja, 


P (E )P(B|E) + P (E C )P (B |E c ) ' 

(0,10)(0,20) _ 0,02 _ 4 

(0,10) (0,20) + (0,90) (0,05) 0,065 13 


= 0,31. 


Portanto, a nova informagao aumenta a probabilidade de que haja queda na bolsa 
de 10% para 31%. 

Suponha, agora, que horas depois surja nova informagao relevante: o Banco Cen¬ 
tral ira reduzir a taxa de juros vigente a partir do dia seguinte. Denotando-se, agora, 
por B : o evento "alta do dolar" e por B 2 o evento "queda na taxa de juros", o interesse 
sera saber como essa nova informagao, B 2 , afetara a probabilidade calculada, P(E |B 1 ). 
Segue-se que essa e agora a probabilidade a priori para E com respeito a B 2 . 

Novamente, informagoes passadas mostram que, dado que tenha havido alta do 
dolar e queda da bolsa, 10% das vezes foram precedidas por notfcias de queda de juros, 
enquanto, dado que tenha havido alta do dolar e alta da bolsa, 60% das vezes foram 
precedidas de queda dos juros. Entao, as verossimilhangas agora serao dadas por 

P(B 2 |E, B l ) = 0,10, P(B 2 |E c , B 2 ) = 0,60. 

O Teorema de Bayes fica escrito agora na forma 


P (E IB,, B 2 ) 
do que segue que 

P(E |B 1( B 2 ) 


_P(E |B X ) P(B 2 |E, BJ_ 

P (E IB,) P(B 2 |E, B 2 ) +P(E c |B 1 ) P(B 2 |E c , B l ) ' 

(0,31)(0,10) = MU = o 07 

(0,31)(0,10) + (0,69)(0,60) 0,445 ' ' 


Ou seja, a informagao B 2 causa urn decrescimo na probabilidade de queda da bolsa, 
de 0,31 para 0,07, que e menor ainda do que a probabilidade a priori inicial, P(E) = 0,10. 

Observe que a probabilidade P(E |B 2 , B 2 ) pode ser escrita tambem como P(E IB, n B 2 ), 
ou seja, temos a ocorrencia simultanea dos eventos B 2 e B 2 . 
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23. Uma companhia produz circuitos em tres fabricas, 1,11 e 111. Afabrica I produz 40% dos 
circuitos, enquanto all e a 111 produzem 30% cada uma. As probabilidades de que urn 
circuito integrado produzido por essas fabricas nao funcione sao 0,01, 0,04 e 0,03, res- 
pectivamente. Escolhido um circuito da produgao conjunta das tres fabricas, qual a pro- 
babilidade de o mesmo nao funcionar? 

24. Considere a situagao do problema anterior, mas suponha agora que um circuito escolhido 
ao acaso seja defeituoso. Determine qual a probabilidade de ele ter sido fabricado por I. 

25. A urna I contem duas bolas pretas e tres brancas, ao passo que a uma II contem tres 
bolas pretas e tres brancas. Escolhemos uma urna ao acaso e dela extraimos uma bola 
que tern cor branca. Se a bola e recolocada na urna, qual e a probabilidade de se retirar 
novamente uma bola branca da mesma urna? 

5.5 Probabilidades Subjetivas 

Na segao 5.1 vimos como associar probabilidades a eventos. Utilizamos um enfoque 
chamado frequentista, pois se baseia na estabilidade das frequences relativas e no fato 
de podermos, hipoteticamente, repetir um experimento varias vezes. Mas e obvio que 
nem sempre podemos considerar replicagoes. Suponha que queiramos calcular a proba¬ 
bilidade de chover no dia 12 de janeiro do proximo ano, na cidade de Sao Paulo. Evi- 
dentemente, se considerarmos o evento A = chover em Sao Paulo no dia 12 de janeiro do 
proximo ano, ele nao pode ser replicado. 0 que poderemos eventualmente considerar e 
em quantos dias 12 de janeiro de anos anteriores choveu e calcular uma frequencia 
relativa. Se tivermos essa informagao, ela evidentemente podera ser usada. Mas suponha 
que uma pessoa morando em Fortaleza tenha de calcular essa probabilidade. Se ela nao 
tiver informagao sobre o tempo em Sao Paulo, podera simplesmente dizer que essa pro¬ 
babilidade e de 1/2. Por outro lado, uma pessoa vivendo em Sao Paulo tera informagoes 
adicionais. Por exemplo, sabera que normalmente janeiro, fevereiro e margo sao meses 
com muita chuva. Esse morador de Sao Paulo podera arriscar uma probabilidade, diga- 
mos de 2/3 para o evento A. Vemos, portanto, que a associagao de probabilidades a um 
evento depende de cada indivfduo, de sua informagao a respeito desse evento. Esse tipo 
de apreciagao e particularmente recomendavel quando o indivfduo julga que as replicagoes 
anteriores nao sejam comparaveis com a proxima. Por exemplo, o fenomeno El Nino 
pode ter ocorrido com grande intensidade em janeiro de 1999, provocando muita chuva 
no sudeste do Brasil, e sua intensidade nos anos seguintes talvez seja menor. 

Respostas a questoes como essa envolvem o que chamamos de probabilidade sub- 
jetiva. Ou seja, cada indivfduo, baseado em informagoes anteriores e na sua opiniao 
pessoal a respeito do evento em questao, pode ter uma resposta para a probabilidade 
desse evento. A Inferencia Bayesiana, de que trataremos brevemente neste livro (veja 
o Capftulo 11), toma como uma de suas bases o fato de que todas as probabilidades 
sao subjetivas. O Teorema de Bayes tern papel importante nesse tipo de inferencia, 
pois passa a ser visto como um mecanismo de atualizagao de opinioes. Ou seja, o 
indivfduo aprende B e passa a ter opiniao P(AIB) sobre A. 
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Um ingrediente basico quando se associam probabilidades e a coerencia. Se um individuo 
julgar que um evento A e mais provavel que seu complementar, entao ele devera, como que 
apostando na ocorrencia de A, associar uma probabilidade maior do que 1/2 ao evento A. Por 
exemplo, se ele julgar que uma proporgao 3:1a favor de A e razoavel, entao ele devera sugerir 
P(A) = 3/4. A formula de Bayes fornece uma maneira coerente de atualizar opinioes. 

As probabilidades associadas a eventos de modo subjetivo tern propriedades ana- 
logas aquelas vistas em segoes anteriores e podem ser obtidas a partir do princfpio da 
coerencia. Ha outras maneiras de se associar probabilidades a eventos e os interessa- 
dos poderao consultar O'Hagan (1994), por exemplo, para obter mais informagoes 
sobre esse assunto e outros ligados a I nferencia Bayesiana. 

5.6 Problemas e Complementos 

26. Um restaurante popular apresenta apenasdoistiposde refeigoes: salada completa ou um prato 
a base de carne. Considere que 20% dos fregueses do sexo masculino preferem a salada, 30% 
das mulheres escolhem carne, 75% dos fregueses sao homens e os seguintes eventos: 

H : fregues e homem A: fregues prefere salada 

M : fregues e mulher B: fregues prefere carne 

Calcular: 

(a) P (H ), P (A | H ), P (B |M ); (b) P (A n H ), P (A U H ); (c) P(M|A). 

27. Uma companhia de seguros analisou a frequencia com que 2.000 segurados (1.000 homens 
e 1.000 mulheres) usaram o hospital. Os resultados sao apresentados na tabela: 



Homens 

Mulheres 

Usaram o hospital 

100 

150 

Nao usaram o hospital 

900 

850 


(a) Qual a probabilidade de que uma pessoa segurada use o hospital? 

(b) O uso do hospital independe do sexo do segurado? 

28. As probabilidades de tres motoristas serem capazes de guiar ate em casa com seguranga, 
depois de beber, sao de 1/3, 1/4 e 1/5, respectivamente. Se decidirem guiar ate em casa, 
depoisde beber numafesta, qual a probabilidade detodos os tres motoristas sofrerem aciden- 
tes? Qual a probabilidade de pelo menos um dos motoristas guiar ate em casa a salvo? 

29. Duas lampadas queimadas foram acidentalmente misturadas com seis lampadas boas. Se 
vamos testando as lampadas, uma por uma, ate encontrar duas defeituosas, qual e a 
probabilidade de que a ultima defeituosa seja encontrada no quarto teste? 

30. Suponhamos que 10.000 bilhetes sejam vendidos em uma loteria e 5.000 em outra, cada 
uma tendo apenas um ganhador. Um homem tern 100 bilhetes de cada. Qual a proba¬ 
bilidade de que: 

(a) ele ganhe exatamente um premio? 

(b) ele ganhe alguma coisa? 








5.6 PROBLEMAS E COMPLEMENTOS 


123 


31 . Uma companhia de seguros vendeu apolices a cinco pessoas, todas da mesma idade e 
com boa saude. De acordo com as tabuas atuariais, a probabilidade de que uma pessoa 
daquela idade esteja viva daqui a 30 anos e de 2/3. Calcular a probabilidade de que 
daqui a 30 anos: 

(a) exatamente duas pessoas estejam vivas; 

(b) todas as pessoas estejam vivas; e 

(c) pelo menos tres pessoas estejam vivas. 

(Indique as suposigoes necessarias para a resolugao do problema.) 

32. Num teste com duas marcas que Ihe sao apresentadas em ordem aleatoria, um 
experimentador de vinhos faz tres identificagoes corretas em tres tentativas. 

(a) Qual a probabilidade de isso ocorrer, se na realidade ele nao possuir habilidade 
alguma para distingui-los? 

(b) E se a probabilidade de distinguir corretamente e de 90% em cada tentativa? 

33. Um grupo de 12 homens e 8 mulheres concorre a tres premios atraves de um sorteio, sem 
reposigao de seus nomes. Qual a probabilidade de: 

(a) nenhum homem ser sorteado? 

(b) um premio ser ganho por homem? 

(c) dois homens serem premiados? 

34. Um empreiteiro apresentou orgamentos separados para a execugao da parte eletrica e da 
parte de encanamento de um edificio. Ele acha que a probabilidade de ganhar a concor- 
rencia da parte eletrica e de 1/2. Caso ele ganhe a parte eletrica, a chance de ganhar a 
parte de encanamento e de 3/4; caso contrario, essa probabilidade e de 1/3. Qual a proba¬ 
bilidade de ele: 

(a) ganhar os dois contratos? 

(b) ganhar apenas um? 

(c) nao ganhar nada? 

35. Em media, 5% dos produtos vendidos por uma loja sao devolvidos. Qual a probabilidade 
de que, das quatro proximas unidades vendidas desse produto, duas sejam devolvidas? 

36. Tresalarmes estao dispostosdetal maneira quequalquerum deles funcionara independente- 
mente quando qualquer coisa indesejavel ocorrer. Se cada alarme tern probabilidade 0,9 de 
trabalhareficientemente, qual e a probabilidade de se ouviro alarme quando necessario? 

37. Em uma fabrica de parafusos, as maquinas A, B e C produzem 25%, 35% e 40% do 
total, respectivamente. Da produgao de cada maquina 5%, 4% e 2%, respectivamente, 
sao parafusos defeituosos. Escolhe-se ao acaso um parafuso e verifica-se que e defeituoso. 
Qual a probabilidade de que o parafuso venha da maquina A; da B; e da C ? 

38. Um fabricante afirma que apenas 5% de todas as valvulas que produztem duragao inferior 
a 20 horas. Uma industria compra semanalmente um grande lote de valvulas desse fabri¬ 
cante, mas sob a seguinte condigao: ela aceita o lote se, em dez valvulas escolhidas 
ao acaso, no maximo uma tiver duragao inferior a 20 horas; caso contrario, o lote todo 
e rejeitado. 
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(a) Se o fabricante de fato term razao, qual a probabilidade de um lote ser rejeitado? 

(b) Suponha agora que o fabricante esteja mentindo, isto e, na verdade a proporgao de 
valvulas com duragao inferior a 20 horas e de 10%. Qual a probabilidade de um lote 
ser aceito, segundo o criterio acima? 

39. Para estudar o comportamento do mercado automobillstico, as marcas foram divididas em 
tres categorias: marca F, marca W, e as demais reunidas como marca X. Um estudo sobre 
o habito de mudanga de marca mostrou o seguinte quadro de probabilidade: 


Proprietario de 
carro da marca 

Probabilidade de mudanga para 

W 

F 

X 

W 

0,50 

0,25 

0,25 

F 

0,15 

0,70 

0,15 

X 

0,30 

0,30 

0,40 


A compra do primeiro carro e feita segundo as seguintes probabilidades: marca W com 
50%, marca F com 30% e marca X com 20%. 

(a) Qual a probabilidade de um indivfduo comprar o terceiro carro da marca W? 

(b) Se o terceiro carro e da marca W, qual a probabilidade de o primeiro tambem ter sido W? 

40. A empresa M & B tern 15.800 empregados, classificados de acordo com a tabela abaixo. 


-.^ Sexo 

Idade 

Homens (M ) 

Mulheres (F) 

Total 

< 25 anos (A) 

2.000 

800 

2.800 

25 -40 anos (B) 

4.500 

2.500 

7.000 

> 40 anos (C) 

1.800 

4.200 

6.000 

Total 

8.300 

7.500 

15.800 


Se um empregado e selecionado ao acaso, calcular a probabilidade de ser ele: 

(a) um empregado com 40 anos de idade ou menos; 

(b) um empregado com 40 anos de idade ou menos, e mullier; 

(c) um empregado com mais de 40 anos de idade e que seja Fiomem; 

(d) uma mullier, dado que e um empregado com menos de 25 anos. 

41. Considere o Problema 40 e suponhia que escolliamos dois empregados ao acaso, com 
reposigao. Qual a probabilidade de que: 

(a) ambos sejam do sexo masculino; 

(b) o primeiro tenhia menos de 25 anos, e o segundo seja do sexo masculino e tenhia 
menos de 25 anos; 

(c) nenhium tenhia menos de 25 anos. 

42. Resolva as questoes (a) e (c) do Problema 41, supondo que a amostragem e feita sem 
reposigao. 
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43. Numa empresa existem operarios de determinada categoria, com idades iguais a a, b e c 
anos (existem pelo menos tres com a mesma idade). Escolhem-se tres ao acaso para que 
fagann determinado curso. Se indicarmos por X a idade do primeiro, y a do segundo e z a 
do terceiro, o terno (x, y, z) indica cada possfvel resultado. Enumere: 

(a) o espago amostral; e (b) os eventos A = {(x, y, z) lx =y = z}, B = {(x, y, z) lx =y}. 

44. Os colegios A, B e C tern as seguintes porcentagens de rapazes, respectivamente: 40%, 
20% e 10%. Urn desses colegios e selecionado ao acaso e oito alunos sao escolhidos, 
com reposigao. Se o resultado for RRRM M M M M (R para rapaz e M para moga), qual e 
a probabilidade de ter sido selecionado o colegio C ? 

45. Um inspetorda segao de controle de qualidade de uma firma examina os artigos de um lote 
que tern m pegas de primeira qualidade e n pegas de segunda qualidade. Uma verificagao 
dos b primeiros artigos selecionados ao acaso do lote mostrou que todos eram de segunda 
qualidade (b <n - 1). Qual a probabilidade de que entre os dois proximos artigos selecio¬ 
nados, ao acaso, dos restantes, pelo menos um seja de segunda qualidade? 

46. Prove que, se A e B sao independentes, tambem o serao A c e B c , A e B c e A c e B. 

47. Obtenha uma formula para P (A U B U C). 

48. Na figura abaixo temos um sistema chamado ponfe. Nas mesmas condigoes do Problema 22, 
obtenha a confiabilidade do sistema. 



49. Considere o quadrado com vertices (0,0), (1,0), (0,1) e (1,1). Suponha que a probabilidade 
de uma regiao A (evento) seja a area dessa regiao. 



(a) Represente graficamente o evento A = conjunto dos pontos cuja distancia a origem 
seja menor ou igual a 1. 

(b) CalculeP(A). 
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(c) Calcule a probabilidade do evento B = {(x, y): X 3* b ou y 5* b}, onde beum numero tal 
que 0 <b <1. 

(d) Calcule P (B c ), onde B foi definido em (c). 

50. Considere Q como o quadrado da figura do Problema 49. Considere os eventos: 

A = {(x, y): 1/3 =£ x =s 2/3, 0 y 1/2} 

B = {(x, y) : 1/2 x ^ 1,1/4 ^ y ^ 3/4}. 

Calcular P (A), P (B), P (A U B), P (A c ), P (B c ) eP (A c n B c ). 

51. Considere, agora, a situagao do Problema 49, mas suponha que o quadrado nao tenha 
area unitaria. Como voce definiria a probabilidade de um evento A? 

52. Suponha uma populagao de N elementosa 1( a 2 ,.... a N . Qualquerarranjoordenadoa il( a i2 ,a in 
de n simbolos e chamado de uma amostra ordenada de tamanho n, extraida da populagao. 
Considere o simbolo (N ) n como significando N (N - 1) ... (N - n + 1). Suponha n < N. 
Mostre que existem N 11 amostras com reposigao (um mesmo elemento pode ser retirado 
mais de uma vez) e (N) n amostras sem reposigao (um elemento, quando escolhido, e 
removido da populagao, nao havendo, pois, repetigao na amostra). 

53. Uma amostra ordenada de tamanho n, extraida de uma populagao com N elementos, 
produz um piano aleatfirio simples se todas as possiveis amostras tern a mesma probabi¬ 
lidade de serem escolhidas; essa probabilidade sera 1/N n se a amostra for com reposigao 
e l/(N) n se for sem reposigao. Uma amostra casual de tamanho n, com reposigao, e 
extraida de uma populagao com N elementos. Encontre a probabilidade de nao haver 
repetigao na amostra. 


54. Considere (^ ) = —rr Observe a situagao do Problema 52, na qual nao 

\n / n! n!(N - n)! v M 

levamos em consideragao a ordem do conjunto a il( a i2 , ..., a in . Mostre que existem 
amostras sem reposigao. 

55. (a) Se A, B e C sao independentes, prove que A e B fl C sao independentes. 

(b) Nas mesmas condigfies, prove que A U B e C sao independentes. 

56. Dizemos que A C B (A e subconjunto de B) se todo elemento de A tambem pertence a B. 
Por exemplo, {1,2} C {1, 2, 3}. Se P (A) = 1/3, P (B c ) = 1/4, A e B podem ser disjuntos (ou 
mutuamente exclusivos)? (Sugestao: P(A) = P (A n B) + P(A Cl B c )eA D B c CB c . Useo 
fato de que, seA C B, P(A) =£ P(B).) 

57. Um sistema e composto de tres componentes 1, 2 e 3, com confiabilidade 0,9, 0,8 e 0,7, 
respectivamente. O componente 1 e indispensavel ao funcionamento do sistema; se 2 ou 
3 nao funcionam, o sistema funciona, mas com um rendimento inferior. Afalha simulta- 
nea de 2 e 3 implica o nao-funcionamento do sistema. Supondo que os componentes 
funcionem independentemente, calcular a confiabilidade do sistema. 

58. Prove (5.4). (Sugestao: Escreva U U V e V como reunifies de eventos mutuamente 
exclusivos.) 






5.6 PROBLEMAS E COMPLEMENTOS 


127 


59. Ha quatro bolas numa urna, numeradas 000, Oil, 101, 110. Selecione uma bola ao 
acaso da urna. Considere os eventos 

Ac na bola selecionada, o numero 1 aparece na posigao i, i = 1, 2, 3. 

Seja A = A 1 fl A 2 n A 3 . 

(a) Calcule P (A,), i = 1, 2,3 e P (A). 

(b) Mostre que A v A 2 e A 3 sao mutuamente independentes, mas nao sao independentes. 

60. Como fica a relagao (5.10) para n eventos quaisquer A v A 2 ,A n ? 

61. Definir independence para n eventos quaisquer A v A . 

62. O problema do aniversario. Considere k pessoas numa sala. Qual a probabilidade de 
que pelo menos duas pessoas fagam aniversario no mesmo dia e mes? A partir de qual 
valor de k essa probabilidade e maior que 0,5? 

(Sugestao: seja A o evento "pelo menos duas pessoas fazem aniversario no mesmo dia". 
O evento complementer e A c : "todas as k pessoas fazem aniversario em dias diferentes". 
Calcule primeiro a P(A C ). Para isso, use o resultado do Problema 53. Aqui, temos N =365 
dias e k = n pessoas. Se P (A) = p, entao mostre que 

, „_ D , AC ,_ (365) k _ 365 ■ 364 ■ 363 ... (365 - k +1) 

P - 1 ''Iff 365^ ■ 

Note que ha k fatores no numerador e no denominador dessa expressao.) 

63. Mostre que a probabilidade 1 - p do Problema 62 pode ser escrita como 

q 1 + 2 +... + k - 1 _ 1 - (k - l)k 

’ P ’ 365 730 ' 

para k pequeno. Como ficara P (A) neste caso? 

64. Num mercado, tres corretoras A, B e C sao responsaveis por 20%, 50% e 30% do volume 
total de contratos negociados, respectivamente. Do volume de cada corretora, 20%, 5% 
e 2%, respectivamente, sao contratos futuros em dolares. Um contrato e escolhido ao 
acaso e este e futuro em dolares. Qual e a probabilidade de ter sido negociado pela 
corretora A ? E pela corretora C? 

65. Lance uma moeda duas vezes e sejam os eventos: A: cara no primeiro langamento, 

B: cara no segundo langamento e C: as duas moedas mostram faces diferentes. 

Mostre que A, B e C sao dois a dois independentes, mas nao totalmente independentes. 

66. O Problema de Monty Hall. Num programa de TV o objetivo e ganhar um carro como 
premio. O apresentador do programa mostra a voce tres portas, P v P 2 e P 3 : atras de uma 
ha um carro e, das outras, duas cabras. Ele pede a voce para escolher uma porta, voce 
escolhe P v mas esta nao e aberta. Entao, ele abre uma das outras duas portas e mostra 
uma cabra (ele sabe o que ha atras de cada porta). Entao ele pergunta se voce quer 
mudar sua escolha de porta. O que voce faria? 

[Sugestao: Solugao informal: Faga a arvore de possibilidades. Solugao formal: seja G o 
evento: ganhar o carro, mudando sua escolha. Seja C, o evento: carro esta atras da porta 
P., i = 1, 2, 3 e seja hbo evento: apresentador abriu a porta P., i = 1, 2, 3. Escreva G 
como uma reuniao disjunta de dois eventos e use (5.8).] 







Capitulo 6 


Variaveis Aleatorias Discretas 


6.1 Introducao 

No capitulo anterior introduzimos alguns modelos probabi1 1 sticos por meio de 
espagos amostrais bem simples. Isso facilitou bastante a compreensao do conceito 
de probabilidade e a obtengao de algumas propriedades. Mas, para atender a situa- 
goes praticas mais gerais, necessitamos ampliar esses conceitos para que tenhamos 
modelos probabilfsticos que representem todos os tipos de variaveis definidas no 
Capitulo 2. Muito do que foi apresentado naquele capitulo para tratamento descritivo 
das variaveis tera o seu correspondente no modelo teorico. 

Para as variaveis qualitativas, a descrigao de probabi I idades associadas a eventos 
construfda no capitulo precedente adapta-se muito bem. Dada a sua simplicidade, 
trataremos aqui de variaveis quantitativas discretas. ja os modelos para variaveis 
contfnuas necessitarao de urn artiffcio matematico, baseado em uma generalizagao 
do conceito de histograma, definido na segao 2.3, e esse sera o objetivo do proximo 
capitulo. A extensao dos modelos para varias variaveis sera tratada no Capitulo 8. 

Por outro lado, quando estudamos a descrigao de dados, vimos que os recursos 
dispomveis para a analise das variaveis quantitativas sao muito mais ricos do que 
para as variaveis qualitativas. Isso sugere o uso de artiffcios para transformar essas 
ultimas variaveis naquelas do primeiro tipo. Por exemplo, considere o caso de urn 
questionario em que uma pessoa e indagada a respeito de uma proposigao, e as 
respostas possfveis sao sim ou nao. Podemos associar ao problema uma variavel que 
toma dois valores, 1 ou 0, por exemplo, correspondentes as respostas sim ou nao, 
respectivamente. Esse tipo de variavel sera estudado neste capitulo. 

0 conhecimento de modelos probabilfsticos para variaveis quantitativas e muito 
importante, e grande parte do restante deste livro sera dedicada a construgao desses 
modelos e inferences sobre seus parametros. Essas variaveis, para as quais iremos 
construir modelos probabilfsticos, serao chamadas de variaveis aleatorias (v.a.). 
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6.2 O Conceito de Variavel Aleatoria Discreta 

0 conceito de v.a. discreta sera introduzido por meio de um exemplo. 

Exemplo 6.1. Um empresario pretende estabelecer uma firma para montagem de um 
produto composto de uma esfera e um cilindro. As partes sao adquiridas em fabricas 
diferentes (A e B), e a montagem consistira em juntar as duas partes e pinta-las. 0 
produto acabado deve ter o comprimento (definido pelo cilindro) e a espessura (defi- 
nida pela esfera) dentro de certos limites, e isso so podera ser verificado apos a mon¬ 
tagem. Para estudar a viabilidade de seu empreendimento, o empresario quer ter uma 
ideia da distribuigao do lucro por pega montada. 

Sabe-se que cada componente pode ser classificado como bom, longo ou curto, 
conforme sua medida esteja dentro da especificagao, maior ou menor que a especificada, 
respectivamente. Alem disso, foram obtidos dos fabricantes o prego de cada compo¬ 
nente ($5,00) e as probabilidades de produgao de cada componente com as caracterfs- 
ticas bom, longo e curto. Esses valores estao na Tabela 6.1. 

Se o produto final apresentar algum componente com a caracterfstica C (curto), ele 
sera irrecuperavel, e o conjunto sera vendido como sucata ao prego de $5,00. Cada 
componente longo podera ser recuperado a um custo adicional de $5,00. Se o prego 
de venda de cada unidade for de $25,00, como seria a distribuigao de frequencias da 
variavel X: lucro por conjunto montado? 


Tabela 6.1 : Distribuigao da produgao das fabricas A e B, de acordo com as medidas 
das pepas produzidas. 


Produto 

Fabrica A 
Cilindro 

Fabrica B 
Esfera 

Dentro das especificapoes . 

... bom (B) 

0,80 

0,70 

Maior que as especificacoes. 

... longo (L) 

0,10 

0,20 

Menor que as especificacoes .... 

... curto (C) 

0,10 

0,10 


Fonte: Retirada das especificacoes tecnicas das fabricas A e B. 

A construgao dessa distribuigao de frequencias vai depender de certas suposigoes 
que faremos sobre o comportamento do sistema considerado. Com base nessas suposi¬ 
goes, estaremos trabalhando com um modelo da realidade, e a distribuigao que obtivermos 
sera uma distribuigao teorica, tanto mais proxima da distribuigao de frequencias real quanto 
mais fieis a realidade forem as suposigoes. 

Primeiramente, vejamos a construgao do espago amostral para a montagem dos 
conjuntos segundo as caracterfsticas de cada componente e suas respectivas probabi¬ 
lidades. Como os componentes vem de fabricas diferentes, vamos supor que a classi- 
ficagao dos cilindros e a da esfera, segundo suas caracterfsticas, sejam eventos inde- 
pendentes. Obteremos a configuragao da Figura 6.1. 

Uma representagao do espago amostral em questao esta apresentada na Tabela 6.2 
e foi obtida da Figura 6.1. 
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Figura 6.1 : Diagrama em arvore para o Exemplo 6.1. 



Tabela 6.2: Distribui?ao de probabilidade das possfveis composi¬ 
tes das monlagens. 


Produto 

Probabilidade 

Lucro por montagem (X) 

BB 

0,56 

15 

BL 

0,16 

10 

BC 

0,08 

-5 

LB 

0,07 

10 

LL 

0,02 

5 

LC 

0,01 

-5 

CB 

0,07 

-5 

CL 

0,02 

-5 

CC 

0,01 

-5 


Fonte: Figura 5.1 e informacoes no texto. 


A ultima coluna da Tabela 6.2 foi construfda com base nas informagoes sobre pre- 
gos. Por exemplo, obtendo uma montagem LB (cilindro longo e esfera boa), do prego de 
venda $25,00 devemos descontar: $10,00 dos custos dos componentes e $5,00 para 
recuperar o cilindro longo. Portanto, o lucro X desse conjunto sera $10,00. Verifique os 
lucros das demais montagens. 

Com os dados da Tabela 6.2, vemos que X pode assumir urn dos seguintes valores: 

15, se ocorrer o evento A 3 = {BB}; 

10, se ocorrer o evento A 2 = {BL, LB}; 

5, se ocorrer o evento A 3 = {L L}; 

-5, se ocorrer o evento A 4 = {BC, LC, CB, CL, CC}. 

Cada urn desses eventos tern uma probabilidade associada, ou seja, 

P (A,) =0,56, P (A 2 ) = 0,23, 

P (A 3 ) = 0,02, P (A 4 ) = 0,19, 

o que nos permite escrever a fungao (x, p (x)) da Tabela 6.3, que e urn modelo teorico 
para a distribuigao da variavel X, que o empresario podera usar para julgar a viabilida- 
de economica do projeto que ele pretende realizar. Aqui, xeo valor da v.a. X e p(x) e 
a probabilidade de X tomar o valor x. Voltaremos a esse problema mais adiante. 
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Tabela 6.3: Distribuipao da v.a. X. 


X 

p(x) 

15 

0,56 

10 

0,23 

5 

0,02 

-5 

0,19 

Total 

1,00 


A fungao (x, p (x)) e chamada fungao de probabilidade da v.a. X. Esquematicamente 
teremos a situagao da Figura 6.2. 


Figura 6.2: Funpao de probabilidade da 
v.a. X = lucro por montagem. 



E evidente que, ao mesmo espago amostral da Tabela 6.2, podemos associar outras 
variaveis aleatorias, como veremos a seguir. 

Exemplo 6.2. Se considerarmos Y como sendo a variavel "custo de recuperagao de 
cada conjunto produzido", verificaremos que Y ira assumir os valores 

0, se ocorrer o evento Q 1 = {BB, BC, LC, CB, CL, CC}; 

5, se ocorrer o evento B 2 = {BL, LB}; 

10, se ocorrer o evento B 3 = {LL}. 

A fungao de probabilidade da v.a. Y esta representada na Tabela 6.4 e a Figura 6.3 
representa a situagao esquematicamente. 


Figura 6.3: Funpao de probabilidade da 
v.a. Y = custo de recuperapao. 
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Tabela 6.4: Distribuigao da v.a. Y. 


y 

p(y) 

0 

0,75 

5 

0,23 

10 

0,02 

Total 

1,00 


Deduz-se do exposto que uma v.a. X, do tipo discrete, estara bem caracterizada 
se indicarmos os possiveis valores x 1( x 2 , ..., x n , ... que ela pode assumir e as respec- 
tivas probabilidades p(x 1 ), p(x 2 ), ..., p(x n ), ..., ou seja, se conhecermos a sua fungao de 
probabilidade (x, p(xj). Tambem usaremos a notagao p(x) = P(X = x). 

Em algumas situagoes, a determinagao da fungao de probabilidade (f.p.) e bem 
mais simples. Isso pode ser verificado pelos dois exemplos seguintes. 

Exemplo 6.3 Voltemos a situagao do Exemplo 5.10, em que consideramos duas extra- 
goes, sem reposigao, de uma urna contendo duas bolas brancas e tres bolas vermelhas. 
Definamos a v.a. X: numero de bolas vermelhas obtidas nas duas extragoes. Obtemos 
a Tabela 6.5 e a Figura 6.4. 


Tabela 6.5: Extragoes sem reposigao de urna com duas 
bolas brancas e tres bolas vermelhas. 


Resultados 

Probabilidades 

X 

BB 

1/10 

0 

BV 

3/10 

1 

VB 

3/10 

1 

VV 

3/10 

2 


Fonte: Figura 6.4. 


Figura 6.4: Diagrama em arvore 
para o Exemplo 6.3. 



Vemos, pois, que a cada resultado do experimento esta associado urn valor da v.a. 
X, a saber, 0, 1 ou 2. 
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Temos que X = 0, com probabilidade 1/10, pois X = 0 se, e somente se, ocorre o 
resultado BB; X =1 com probabilidade 3/10 + 3/10 = 6/10, pois X = 1 se, e somente se, 
ocorrem os resultados BV ou VB, que sao mutuamente exclusivos; finalmente, X = 2 com 
probabilidade 3/10, pois X = 2 se, e somente se, ocorre o resultado VV. Resumidamente, 

p(0) = P (X =0) = P (BB) =1/10, 
p(l) = P(X =1) = P(BV ou VB) =6/10, 
p(2) = P (X = 2) = P (VV) =3/10. 

Na Tabela 6.6 apresentamos a distribuigao de probabilidades da v.a. X. 


Tabela 6.6: Distribuigao de probabilidades da v.a. 
X = numero de bolas vermelhas. 


X 

p(x) 

0 

1/10 

1 

6/10 

2 

3/10 


Fonte: Tabela 6.5. 


Exemplo 6.4 Retomemos o Exemplo 5.3, em que consideramos o langamento de uma 
moeda duas vezes. Definamos a v.a. Y: numero de caras obtidas nos dois langamentos. 
Temos, entao: 

p(0) =P(Y =0) = P (RR) =1/4, 

p(l) =p(Y =1) = P(CR ou RC) = 1/4 + 1/4 = 1/2, 

p(2) = P(Y =2) = P(CC ) =1/4. 

Na Tabela 6.7 e Figura 6.5 temos esquematizado o que ocorre e na Tabela 6.8 
apresentamos a distribuigao de probabilidades de Y. 


Tabela 6.7: Lanipamento de duas moedas. 


Resultados 

Probabilidades 

Y 

CC 

1/4 

2 

CR 

1/4 

1 

RC 

1/4 

1 

RR 

1/4 

O 


Fonte: Figura 6.5. 


Figura 6.5: Diagrama em arvore para o Exemplo 6.4. 
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Tabela 6.8: Distribuigao da v.a. Y = numero de caras. 


y 

p(y) 

0 

1/4 

i 

1/2 

2 

1/4 


Ponte: Tabela 6.7. 


Dos exemplos apresentados, vemos que, a cada ponto do espago amostral, a variavel 
sob consideragao associa um valor numerico, o que corresponde em Matematica ao 
conceito de fungao, mais precisamente, a uma fungao definida no espago amostral Q 
e assumindo valores reais. 

Definigao Uma fungao X, definida no espago amostral Q e com valores num conjunto 
enumeravel de pontos da reta e dita uma variavel aleatoria discreta. 
Esquematicamente, teremos a situagao da Figura 6.6. 


Figum 6.6: Definigao de uma v.a. 



Vimos, tambem, como associar a cada valor x. da v.a. X sua probabilidade de ocor- 
rencia. Ela e dada pela probabilidade do evento A de Q, cujos elementos correspondem 
ao valor x i (veja Figuras 6.2 e 6.3). M atematicamente, podemos escrever 

P (X = x,) = P (A), 

onde 


A = {oOj, co 2 , ...} c Q 
e tal que Xfccr) = x., se co i e A e Xf^) # x jl se cOj e A c . 

Definigao. Chama-se fungao de probabilidade da v.a. discreta X, que assume os valo¬ 
res x 1( x 2 , ..., x n , ..., a fungao {(x i , p(x.)), i = 1, 2, ...}, que a cada valor de x i associa a sua 
probabilidade de ocorrencia, isto e, 

p(x.) = P (X =x,) =p,, I =1, 2, ... 
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1. Considere uma urna contendo tres bolas vermelhas e cinco pretas. Retire tres bolas, sem 
reposigao, e defina a v.a. X igual ao numero de bolas pretas. Obtenha a distribuigao de X. 

2. Repita o problema anterior, mas considerando extragoes com reposigao. 

3. Suponha que uma moeda perfeita e langada ate que cara aparega pela primeira vez. Seja 
X o numero de langamentos ate que isso acontega. Obtenha a distribuigao de X. (Obser¬ 
ve que, nesse problema, pelo menos teoricamente, X pode assumir um numero infinito de 
valores.) Veja tambem o Problema 55. 

4. Uma moeda perfeita e langada quatro vezes. Seja Y o numero de caras obtidas. Calcule 
a distribuigao de Y. 

5. Repita o problema anterior, considerando agora que a moeda e viciada, sendo a proba- 
bilidade de cara dada por p, 0 < p < 1, p # 1/2. 

6. Generalize o Problema 5, para n langamentos da moeda. 


6.3 Valor Medio de uma Variavel Aleatoria 

Vamos introduzir o conceito de valor medio por meio do seguinte exemplo. 

Exemplo 6.5, Uma pergunta que logo ocorreria ao empresario do Exemplo 6.1 e qual o 
lucro medio por conjunto montado que ele espera conseguir. Da Tabela 6.3, observamos 
que 56% das montagens devem produzir um lucro de 15 reais, 23% um lucro de dez 
reais, e assim por diante. Logo, o lucro esperado por montagem sera dado por 
lucro medio = (0,56)(15) + (0,23)(10) + (0,02)(5) + (0,19)(-5) = 9,85. 

Isto e, caso sejam verdadeiras as suposigoes feitas para determinar a distribuigao 
da v.a., o empresario espera ter um lucro de 9,85 reais por conjunto montado. 

Definigao. Dada a v.a. X discreta, assumindo os valores x 1( ..., x n , chamamos valor 
medio ou esperanga matematica de X ao valor 

E(X) =i Xi P(X =x,) =tx iP , (6.1) 

A expressao (6.1) e semelhante aquela utilizada para a media, introduzida no Capf- 
tulo 3, onde no lugar das probabilidades p j tfnhamos as frequences relativas f. A 
distingao entre essas duas quantidades e que a primeira corresponde a valores de um 
modelo teorico pressuposto, e a segunda, a valores observados da variavel. Como p ; e 
f tern a mesma interpretagao, todas as medidas e graficos discutidos no Capftulo 2, 
baseados na distribuigao das f, possuem um correspondente na distribuigao de uma 
v.a. Alem do valor medio, ou simplesmente media, definido acima, podemos conside- 
rar tambem outras medidas de posigao e variabilidade, como a mediana e o desvio 
padrao. Veja a segao 6.8 para a definigao da mediana de uma v.a. discreta. Vamos 
considerar agora a definigao de variancia. 
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Definigao Chamamos de variancia da v.a. X o valor 

Var(X) =^ [x, - E (X)] 2 p i . (6.2) 

0 desvio padrao de X, DP(X), e definido como a raiz quadrada positiva da variancia. 

Exemplo 6.6 Deixamos a cargo do leitor verificar que, no caso do problema do em- 
presario, teremos: 

(i) Var(X) = 57,23; 

(ii) DP(X) = 7,57; 

(iii) grafico de (x, p(x)): Figura 6.7. 


Figure! 6.7: Grafico de p(x): distribuiipao da v.a. X = lucro 
por montagem. 



Observagao. Ate agora, consideramos o caso em que a v.a. X pode assumir um nume- 
ro finito de valores. Mas uma v.a. discreta X pode assumir um numero infinito, porem 
enumeravel, de valores, x 1( ..., x n , ..., com probabilidades p 1( ..., p n , ..., tal que 
cada p ; > 0 e a soma de todos os Pi seja 1, ou seja, 2J=i Pi = 1. Veja o Problema 3. Nesse 
caso, a definigao de esperanga deve ser modificada. A soma na expressao (6.1) e uma 
"soma infinita", que temos de supor que seja "convergente". 




emas 


7. Obtenha a media e a variancia da v.a. X dos Problemas 1 e 2. 

8. Obter a media e a variancia da v.a. Y do Problema 4. 
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6.4 Algumas Propriedades do Valor Medio 

Retomemos o Exemplo 6.1 para ilustrar algumas propriedades da media de uma v.a. 

Exemplo 6.7. Suponha que todos os pregos determinados pelo empresario do Exem¬ 
plo 6.1 estivessem errados. Na realidade, todos os valores deveriam ser duplicados, 
isto e, custos e pregos de venda. Isso corresponde a transformagao Z = 2X. As probabi- 
lidades associadas a v.a. Z serao as mesmas da v.a. X, pois cada valor de X ira 
corresponder a urn unico valor de Z. Na Tabela 6.9 temos a distribuigao de Z. 

0 valor medio da v.a. Z e obtido por 

E(Z) =Iz i p(z i ) =I(2x i )p(x i ) =19,70. 

Suponha, agora, que queiramos a distribuigao da v.a. W = X 2 . Baseados na Tabela 6.3, 
obtemos a Tabela 6.10. 


Tabela 6.9: Distribuigao da variavel aleatoria Z =2X. 


X 

2 = 2x 

p(z) =p(x) 

2 ■ p(z) 

15 

30 

0,56 

16,80 

10 

20 

0,23 

4,60 

5 

10 

0,02 

0,20 

-5 

-10 

0,19 

-1,90 

Total 

- 

1,00 

19,70 


Fonte: Tabela 6.3. 


Tabela 6.10: Distribuigao da variavel aleatoria W =X 2 . 


w 

p(w) 

w ■ p(w) 

225 

0,56 

126,00 

100 

0,23 

23,00 

25 

0,21 

5,25 

Total 

1,00 

154,25 


Fonte: Tabela 6.3. 


Observe que o evento {W = 25} ocorre quando {X = 5 ou X = -5}, portanto 
P(W =25) =P(X =5) +P(X = -5) = 0,02 + 0,19 = 0,21. Segue-se que a media de W e 

E (W) =Xw i p(w i ) = (225)(0,56) + (100)(0,23) + (25)(0,21) 

= (225) (0,56) + (100)(0,23) + {(25)(0,02) + (25)(0,19)} 

= Sx i 2 p(x i ) = 154,25. 
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Quanto as esperangas de Z e W, transformadas de X, e facil ver que elas podem ser 
escritas atraves da f.p. de X. 

Definigao Dada a v.a. discreta X e a respectiva fungao de probabilidade p(x), a espe- 
ranga matematica da fungao h(X) e dada por 

E [h(X)] = Xh(x i )p(x i ). (6.3) 

As seguintes propriedades podem ser facilmente demonstradas (veja o Problema 45): 

(a) Se h(X) = aX + b, onde a e b sao constantes, entao 

E(aX + b) = aE (X) + b, (6.4) 

Var(aX + b) = a 2 Var(X). (6.5) 

(b) Var(X) = E(X 2 ) - [(E(X )] 2 = v x 2 p (x) _ [V x .p( Xi )]2. (6.6) 

A formula (6.6) deve ser usada para facilitar o calculo da variancia. 

Observagao. A propriedade (6.4) nao vale, em geral, para fungoes nao-lineares. 

Veja o Problema 58. 

Exemplo 6.8. Usando os resultados dos exemplos 6.5 e 6.7, obtemos 

Var(X) = 154,25 - (9,85) 2 = 57,23. 

Observagao. Usaremos os simbolos abaixo para indicar a media e a variancia de uma v.a. X: 

E(X) = J u(X), 

Var(X) = ct 2 (X ), 

ou, simplesmente, n e a 2 , respectivamente, se nao houver possibilidade de confusao. 

6.5 Funcao de Distribuicao Acumulada 

No Capftulo 2 demos a definigao de fungao de distribuigao acumulada ou empirica 
para urn conjunto de n observagoes. 0 equivalente teorico para variaveis aleatorias 
e definido a seguir. 

Definigao. Dada a variavel aleatoria X, chamaremos de fungao de distribuigao acumu¬ 
lada (f.d.a.), ou simplesmente fungao de distribuigao (f.d.) F(x) a fungao 

F (x) = P (X =£ x). (6.7) 

Observe que o dominio de F e todo o conjunto dos numeros reais, ao passo que o 
contradomfnio e o intervalo [0,1], 

Exemplo 6.9. Voltando ao problema do empresario e usando a f.p. de X definida na 
Tabela 6.3, a f.d.a. de X sera dada por 
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0 , 

se 

x < 

-5 

0,19, 

se 

-5 = 

sx <5 

0,21, 

se 

5 2 

x < 10 

0,44, 

se 

10 = 

s x < 15 

1 , 

se 

X 

15, 


cujo grafico esta na Figura 6.8. 


Figura 6.8: f.d.a. para a v.a. X = lucro 
por montagem. 


F(x) 


1,0 

t- 

0,8 


0,6 

] 

O^J 
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-5 

5 10 15 x 


Observe que P(X = x.) e igual ao salto que a fungao F (x) da no ponto x.; por 
exemplo, P(X = 10) = 0,23 = F (10) - F (10-). De modo geral, P(X = x,) = F (x.) - F (x.-), 
onde lembramos que F(a-) = lim x ^ a F(x). Observe, tambem, que o conhecimento de 
F(x) e equivalente ao conhecimento da f.p. de X. 




emas 


9. No Problema 1, obtenha as distribuigoes das v.a. 3X e X 2 . 

10. Considere o langamento de tres moedas. Se ocorre o evento CCC, dizemos que temos 
uma sequencia, ao passo que se ocorre o evento CRC temos tressequencias. Defina a v.a. 
X = numero de caras obtidas e Y = numero de sequencias, isso para cada resultado 
possfvel. Assim, X (CRR) =1 eY (CRR) = 2. Obtenha as distribuigoes de X e Y. Calcule 
E(X), E(Y), Var(X) e Var(Y). 

11 . Suponha que a v.a. V tern a distribuigao seguinte: 


V 

0 

i 

p(v) 

q 

1 -q 


Obtenha E (V) e Var(V). 

12. Seja X com distribuigao dada abaixo; calcule E(X). Considere a v.a. (X - a) 2 e calcule 
E(X - a) 2 para a =0, 1/4, 1/2, 3/4, 1. Obtenha o grafico de E(X - a) 2 =g(a). 

Para qual valor de a, g(a) e mfnimo? 


X 

0 

1 

2 

p(x) 

1/2 

1/4 

1/4 
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13. Um vendedor de equipamento pesado pode visitor, num dia, urn ou dois clientes, com 
probabilidade de 1/3 ou 2/3, respectivamente. De cada contato, pode resultar a venda de 
um equipamento por $50,000,00 (com probabilidade 1/10) ou nenhuma venda (com pro¬ 
babilidade 9/10). Indicando por Y o valor total de vendas diarias desse vendedor, escreva a 
funqao de probabilidade de Y e calcule o valor total esperado de vendas diarias. 

14. Calcule a variancia da v.a. Y definida no Problema 13. 

15. Obter a f.d.a. para a v.a. V do Problema 11. Faqa seu grafico. 

16. Calcule a f.d.a. da v.a. Y do Problema 10 e faqa seu grafico. 

17. O tempo T, em minutos, necessario para um operario processor certa peqa e uma v.a. 
com a seguinte distribuiqao de probabilidade. 


t 

2 

3 

4 

5 

6 

7 

p(t) 

0,1 

0,1 

0,3 

0,2 

0,2 

0,1 


(a) Calcule o tempo medio de processamento. 

Para cada peqa processada, o operario ganha um fixo de $2,00, mas, se ele processa 
a peqa em menos de seis minutos, ganha $0,50 em cada minuto poupado. Por exem- 
plo, se ele processa a peqa em quatro minutos, recebe a quantia adicional de $1,00. 

(b) Encontre a distribuiqao, a media e a variancia da v.a. G: quantia em $ ganha por peqa. 

18. Sabe-se que a v.a. X assume os valores 1, 2 e 3 e que sua f.d.a. F (x) e tal que 

F (1) - F (1-) = 1/3, 

F (2) - F (2-) = 1/6, 

F (3) - F (3-) = 1/2. 

Obtenha a distribuiqao de X, a f.d.a. F (x) e os graficos respectivos. 

19. Obtenha a f.d.a. F (t) da v.a. T do Problema 17. 

6.6 Alguns Modelos Probabilisticos para Variaveis Aleatorias 
Discretas 

Algumas variaveis aleatorias adaptam-se muito bem a uma serie de problemas 
praticos. Portanto, um estudo pormenorizado dessas variaveis e de grande importan- 
cia para a construgao de modelos probabilisticos para situagoes reais e a consequente 
estimagao de seus parametros. Para algumas dessas distributes existem tabelas que 
facilitam o calculo de probabilidades, em fungao de seus parametros. Nesta segao 
iremos estudar alguns desses modelos, procurando enfatizar as condigoes em que eles 
aparecem, suas fungoes de probabilidade, parametros e como calcular probabilidades. 

6.6.1 Distribuicao Uniforme Discreta 

Este e o caso mais simples de v.a. discreta, em que cada valor possivel ocorre com 
a mesma probabilidade. 
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Definigao A v.a. discreta X, assumindo os valores x 1( x k , tem distribuigao uniforme 
se, e somente se, 

P (X = Xi) = p(Xi) = p = A, (6.8) 

para todo i = 1, 2, k. 

E fad I verificar que 

E(X)=|lx., (6.9) 

k i=i 1 


Var(X ) = -f 
k 




( 6 . 10 ) 


e que a fungao de distribuigao acumulada e dada por 

F(x) = X -1 = ^, (6.11) 

<Xi «x) k k 

onde n(x) e o numero de x. x (veja a Figura 6.9). 


Figura 6.9: Distribuipao uniforme discreta. 


p(x) , 

F(x) ■ 

1,0 ■ 

• A 

1/k ■ 

2/k ■ 

- • • • • 1/k - 

f—9 

i 1 | | w 

(a) 

X 1 X 2 x 3 X k 

Fun^ao de probabilidade (b) 

X 1 X 2 X 3 X k 

Fun<pao de distribuigao 


Exemplo 6.10. Seja X a v.a. que indica o "numero de pontos marcados na face superior 
de urn dado", quando ele e langado. Obtemos na Tabela 6.11 a distribuigao de X. 
Temos, tambem, 


E (X ) = 1/6 {1 + 2 + 3 + 4 + 5 + 6} = 21/6 = 3,5, 
Var(X ) = 1/6 {(1 + 4 + ... + 36) - (21) 2 /6} = 35/12 = 2,9. 

Tabela 6.11 : Numero de pontos no lanpamento de urn dado. 


X 

1 

2 

3 

4 

5 

6 

Total 

p ( x ) 

1/6 

1/6 

1/6 

1/6 

1/6 

1/6 

1,0 
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6.6.2 Distribuicao de Bernoulli 

Muitos experimentos sao tais que os resultados apresentam ou nao uma determina- 
da caracteristica. Por exemplo: 

(1) uma moeda e langada: o resultado ou e cara, ou nao (ocorrendo, entao, coroa); 

(2) um dado e langado: ou ocorre face 5 ou nao (ocorrendo, entao, uma das faces 
1, 2, 3, 4 ou 6); 

(3) uma pega e escolhida ao acaso de um lote contendo 500 pegas: essa pega e 
defeituosa ou nao; 

(4) uma pessoa escolhida ao acaso dentre 1.000 e ou nao do sexo masculino; 

(5) uma pessoa e escolhida ao acaso entre os moradores de uma cidade e verifica- 
se se ela e favoravel ou nao a um projeto municipal. 

Em todos esses casos, estamos interessados na ocorrencia de sucesso (cara, face 5 
etc.) ou fracasso (coroa, face diferente de 5 etc.). Essa terminologia (sucesso e fracas- 
so) sera usada frequentemente. 

Para cada experimento acima, podemos definir uma v.a. X, que assume apenas 
dois valores: 1, se ocorrer sucesso, e 0, se ocorrer fracasso. Indicaremos por p a proba- 
bilidade de sucesso, isto e, P(sucesso) = P(S) = p, 0 < p < 1. 

Definigao A variavel aleatoria X, que assume apenas os valores 0 e 1, com fungao de 
probabilidade (x, p(x)) tal que 

p(0) = P (X =0) =1- p, 
p(l) = P (X =1) =p, 

e chamada variavel aleatoria de Bernoulli. 

Entao, segue-se facilmente que 


E (X) = 

p; 


(6.12) 

Var(X) = 

p - 

p 2 = pd - p), 

(6.13) 


" 0 , 

se x < 0 


F (x) =« 

l - 

p, se 0 x < 1 



i, 

se x 3= 1. 



Na Figura 6.10 temos representadas as f.p. e f.d.a. de X. 
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Figura 6.10: Distribuigao de Bernoulli (a) f.p. (b) f.d.a. 


P(x) , 

FW 1 



1- 

-f 

p- 

• 


1-p, 

1-p < 

>-9 

0 

i x o T i x 


M 
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Exemplo 6.11 Vamos supor o caso do experimento (2). Supondo o dado perfeito, 
teremos P (X = 0) = 5/6, P(X = 1) = 1/6, 

E (X) = 1/6, Var(X ) = (1/6) (5/6) = 5/36. 

Observagao. Experimentos que resultam numa v.a. de Bernoulli sao chamados ensaios 
de Bernoulli. Usaremos a notagao 


X ~ Ber(p) 

para indicar uma v.a. com distribuigao de Bernoulli com parametro p. 

6.6.3 Distribuicao Binomial 

Imagine, agora, que repetimos urn ensaio de Bernoulli n vezes, ou, de maneira 
alternativa, obtemos uma amostra de tamanho n de uma distribuigao de Bernoulli. 
Suponha ainda que as repetigoes sejam independentes, isto e, o resultado de urn en¬ 
saio nao tern influencia nenhuma no resultado de qualquer outro ensaio. Uma amostra 
particular sera constituida de uma sequencia de sucessos e fracassos, ou, alternativa- 
mente, de uns e zeros. Por exemplo, repetindo urn ensaio de Bernoulli cinco vezes 
(n = 5), urn particular resultado pode ser FSSFS ou a qufntupla ordenada (0, 1, 1, 0, 1). 
Usando a notagao da segao 6.6.2, com P(S) = p, a probabilidade de tal amostra sera 

(1 - p)pp(l - p)p = p 3 (l - p) 2 . 

0 numero de sucessos nessa amostra e igual a 3, sendo 2 o numero de fracassos. 
Considere agora as seguintes situagoes, obtidas de (1) a (5) da segao anterior: 

(T) uma moeda e langada tres vezes; qual e a probabilidade de se obter duas caras? 

(2') urn dado e langado cinco vezes; qual e a probabilidade de se obter face 5 no 
maxi mo tres vezes? 
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(3')dez pegas sao extrafdas, ao acaso, com reposigao, de um lote contendo 500 
pegas; qual e a probabilidade de que todas sejam defeituosas, sabendo-se que 
10% das pegas do lote sao defeituosas? 

(4') cinco pessoas sao escolhidas ao acaso entre 1.000; qual e a probabilidade de 
que duas sejam do sexo masculino? 

(5') sabe-se que 90% das pessoas de uma cidade sao favoraveis a um projeto mu¬ 
nicipal. Escolhendo-se 100 pessoas ao acaso entre os moradores, qual e a 
probabilidade de que pelo menos 80 sejam favoraveis ao projeto? 

Observe que, nos casos (4') e (5'), o fato de estarmos extraindo individuos de um 
conjunto muito grande implica que podemos supor que as extragoes sejam praticamen- 
te independentes. 

Exemplo 6.12 Consideremos a situagao (1'), supondo que a moeda seja "honesta", 
isto e, P(sucesso) = P(cara) = 1/2. Indiquemos o sucesso (cara) por S e fracasso (co- 
roa), por F. Entao, estamos interessados na probabilidade do evento 

A = {SSF, SFS, FSS}, 

ou, em termos da notagao anterior, na probabilidade de 

A = {(1, 1, 0), (1, 0, 1), (0, 1, 1)}. 

E claro que P(A) = P(SSF) + P(SFS) + P(FSS) e, devido a independence dos ensaios, 
P (SSF) =y x{ x| = P(SFS) = P(F SS), 


e, portanto, 


P(A) = |. 

Se a probabilidade de sucesso for p, 0 < p < 1, e P(F) = 1 - p = q, entao 
P (SSF ) = p xpxq =p2 X q = P(SFS) = P(FSS), 


de modo que 


P(A) = 3p 2 q. 

Uma caracteristica interessante dos experimentos considerados e que estamos in¬ 
teressados apenas no numero total de sucessos e nao na ordem em que eles ocorrem. 
Podemos construir a Tabela 6.12 para n = 3 langamentos da moeda, com P(S) = p, 
P(F) = 1 - p = q, a partir da Figura 6.11. 



6.6 ALGUNS MODELOS PROBABIUSTICOS PARA VARIAVEIS ALEATORIAS DISCRETAS 


145 


Figura 6.11: Probabilidades binomiais para n = 3 e P (S) = p. 



Tabela 6.12: Probabilidades binomiais para n = 3 e P (S) = p. 


Numero de sucessos 

Probabilidades 

p= 1/2 

0 

q 3 

1/8 

1 

3pq 2 

3/8 

2 

3p 2 q 

3/8 

3 

p 3 

1/8 


Fonte: Figura 6.11. 


Vamos designar por X o numero total de sucessos em n ensaios de Bernoulli, com 
probabilidade de sucesso p, 0 < p < 1. Os possiveis valores de X sao 0, 1, 2, n e os 
pares (x, p(x)), onde p(x) = P(X = x), constituem a chamada distribuigao binomial. 

Para o exemplo (1') acima, n = 3 e p = 1/2, obtemos a distribuigao dada pela 
primeira e terceira colunas da Tabela 6.12 e o grafico da Figura 6.12. 


Figura 6.12: Grafico da f.p. p(x) para n = 3 e p = 1/2. 
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Obtenhamos, agora, P(X = k), ou seja, numa sequencia de n ensaios de Bernoulli, 
a probabilidade de obter k sucessos (e portanto n - k fracassos), k = 0,1,2, ..., n, com 
P(S) = p, P(F) = 1 - p = q. Uma particular sequencia e 

SSS ... SFF ... F, 

onde temos k sucessos seguidos por n - k fracassos. A probabilidade de tal sequencia e 

p k (l - p) n ~ k = p k q n " k , (6.14) 

devido a independence dos ensaios. Mas qualquer sequencia com k sucessos e 
n - k fracassos tera a mesma probabilidade (6.14). Portanto resta saber quantas se¬ 
quences com a propriedade especificada podemos formar. E facil ver que existem 

n\ _ n! 
kj ki(n-k)! 

tais sequences, de modo que 

P (X = k) =( n k )p k q"- k , k =0, 1.n. (6 ' 15) 

As probabilidades (6.15) tambem serao indicadas por b(k; n, p) e, quando a v.a. X 
tiver distribuigao binomial com parametros n e p, escreveremos 

X ~ b(n, p). 


Exemplo6.13.Vamos considerar a situagao (3 1 ) acima. Temos n =10 ensaios de Bernoulli, 
cada urn com P(S) = P(pega defeituosa) = p = 0,1. Se X indicar o numero de pegas 
defeituosas na amostra, queremos calcular P(X = 10) = b( 10; 10, 1/10). Por (6.15), 
obtemos 

P (X = 10) = (JqI (1/10) 10 (9/10)° = (1/10) 10 = 1/10 10 . 


A media e a variance de uma v.a. binomial, com parametros n e p sao dadas, 
respectivamente, por 

E(X) = np, (6.16) 

Var(X)=npq. (6.17) 

Veja o Problema 41 e as segoes 8.3 e 8.4. 

Para o Exemplo 6.13 temos 


E(X) = 10 x 


_i_ 

10 


= i, 


Var(X) =10 x 



_9_ 

10 


As probabilidades binomiais b(k; n, p) sao facilmente calculadas em programas 
estatisticos, como o M initab e o SPIus, ou planilhas, como o Excel, ou entao sao dadas 
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por tabelas especialmente construfdas, para diferentes valores de n e p. A Tabela I 
fornece essas probabilidades para valores de n = 2, 3, 19 e alguns valores de p. 

Example 6.14. Usando (6.15) e a Tabela I, ou com a ajuda de um computador, obtemos 



No Capftulo 7 e segao 6.6.5 abaixo veremos duas maneiras de calcular valores 
aproximados para as probabilidades binomials para n grande. 

Para finalizar, vamos formalizar os principals pontos apresentados nesta segao. 

Definigao. Chama-se de experimento binomial ao experimento 

(a) que consiste em n ensaios de Bernoulli; 

(b) cujos ensaios sao independentes; e 

(c) para o qual a probabilidade de sucesso em cada ensaio e sempre igual a p, 0 < p < 1. 

Definigao. A variavel aleatoria X, correspondente ao numero de sucessos num experi¬ 
mento binomial, tern distribuigao binomial b(n, p), com fungao de probabilidade 


b(k; n, p) = P (X = k|n, p) = (")p k q n - k , k = 0, 1.n. (6.18) 


Na segao 6.9 veremos como podemos obter os valores b(k; n, p), para n e p dados, 
usando um pacote estatfstico. 

6.6.4 Distribuicao Hipergeometrica 

Essa distribuigao e adequada quando consideramos extragoes casuais feitas sem reposi- 
gao de uma populagao dividida segundo dois atributos. Para ilustrar, considere uma populagao 
de N objetos, r dos quais tern o atributo A e N - r tern o atributo B. Um grupo de n 
elementos e escolhido ao acaso, sem reposigao. Estamos interessados em calcular a proba¬ 
bilidade de que esse grupo contenha k elementos com o atributo A. Pode-se ver facilmente, 
utilizando o prindpio multiplicative, que essa probabilidade e dada por 



(6.19) 


onde max(0, n-N + r) k min(r, n). 

Os pares (k, p k ) constituem a distribuigao hipergeometrica de probabilidades. Se defi- 
nirmos a v.a. X como sendo o numero de elementos na amostra que tern o atributo A, entao 
P(X = k) = p k . 


Exemplo 6.15. Em problemas de controle de qualidade, lotes com N itens sao examinados. 
0 numero de itens com defeito (atributo A), r, e desconhecido. Colhemos uma amostra de n 
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itens e determinamos k. Somente para ilustrar, suponha que num lote de N = 100 pegas, 
r = 10 sejam defeituosas. Escolhendo n = 5 pegas sem reposigao, a probabilidade de nao se 
obter pegas defeituosas e 


Po = 


10V90 
0 5 




0,584, 


enquanto a probabilidade de se obter pelo menos uma defeituosa e 

Pi + P 2 + ■■■ + P 5 = 1 - P 0 “ 0,426. 

Pode-se demonstrar que a v.a. X definida acima tem esperanga e variancia dadas por 

E(X) = np, (6.20) 

Var(X) =np(l - p) jjj-=-J , (6.21) 


respectivamente, onde p = r/N e a probabilidade de se obter uma pega defeituosa numa 
unica extragao. Se N for grande, quando comparado com n, entao extragoes com ou sem 
reposigao serao praticamente equivalentes, de modo que as probabilidades dadas por (6.19) 
serao aproximadamente iguais as dadas pela formula (6.15), isto e, p k - b(k; n, p). Do 
mesmo modo, os resultados (6.20) e (6.21) serao aproximadamente iguais aos valores cor- 
respondentes da distribuigao binomial (note que N - n — N - 1, se n « N). Denotaremos 
uma v.a. com distribuigao hipergeometrica por 

X ~ hip(N, r, n). 

6.6.5 Distribuicao de Poisson 

A Tabela I fornece os valores de b(k; n, p) para n = 2, ..., 19. Para n grande e p 
pequeno, podemos aproximar essas probabilidades por 


e - n p(np) k 

k! 


-, k = 0, 1, ..., n. 


( 6 . 22 ) 


As probabilidades (6.22), calculadas agora para todos os valores inteiros nao ne¬ 
gatives k = 0, 1, 2,..., constituem a chamada distribuigao de Poisson, tabelada na 
Tabela II, para alguns valores de A = np. A aproximagao 


b(k; n, p) 


e- np (np) k 
k! 


(6.23) 


e boa se n for grande e p pequeno e de tal sorte que np « 7. Ver o Problema 43 para 
uma sugestao de como provar (6.23). 

As probabilidades dadas por (6.23) podem, tambem, ser obtidas em aplicativos 
estatfsticos ou planilhas, assim como a binomial. 
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Exemplo 6.16 Consideremos aproximar b(2; l.OOO, 0,0001), usando (6.23). Temos 
que np = 0,1, logo 


b(2; 1.000, 0,0001) - e 0 ^°' 1)2 = 0,0045. 

Observemos que as probabilidades (6.23) estao definidas para qualquer inteiro nao 
negativo k. Contudo, observando a Tabela II, vemos que essas probabilidades decaem a 
medida que k cresce e, normalmente, sao desprezfveis para k maior do que 5 ou 6. 

A distribuigao de Poisson e largamente empregada quando se deseja contar o numero 
de eventos de certo tipo que ocorrem num intervalo de tempo, ou superficie ou volume. 
Sao exemplos: 

(a) numero de chamadas recebidas por urn telefone durante cinco minutos; 

(b) numero de falhas de urn computador num dia de operagao; e 

(c) numero de relatorios de acidentes enviados a uma companhia de seguros numa 
semana. 

De modo geral, dizemos que a v.a. N tern uma distribuigao de Poisson com parametro 
A > 0 se 


P(N =k) k = 0, 1, 2,... (6.24) 

k! 

E facil verificar que E(N) = Var(N) = A (veja o Problema 46); logo, A representa o 
numero medio de eventos ocorrendo no intervalo considerado. 

Uma suposigao que se faz usualmente em relagao a distribuigao de Poisson e que a 
probabilidade de se obter mais de urn evento num intervalo muito pequeno e desprezfvel. 

Exemplo 6.17. Uma situagao pratica de interesse na qual a distribuigao de Poisson e 
empregada diz respeito a desintegragao de substancias radioativas. Considere o ura- 
nio 238 (U 238 ), por exemplo. Cada nucleo de U 238 tern uma probabilidade muito 
pequena, 4,9 x 10” 18 de se desintegrar, emitindo uma partfcula a, em urn segundo. 
Considere, agora, urn numero grande n de nucleos e a v.a. N = numero de nucleos 
que se desintegram. Admitindo-se que a desintegragao de urn nucleo nao afeta a 
probabilidade de desintegragao de qualquer outro nucleo (independence), a v.a. N 
tern uma distribuigao binomial, com parametros n e p, este dado pelo valor acima. 
Logo, estamos numa situagao em que podemos usar (6.23), ou seja, aproximar pro¬ 
babilidades binomiais por probabilidades de Poisson. 

Em 0,30 mg de U 238 temos aproximadamente n =7,6 x 10 17 atomos (Helene e 
Vanin, 1981), logo A = np « 3,7 e 

P (N = k) ~ e ~ 3 ’ 7(3,7)k , k = 0, 1,... 
k! 
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Por exemplo, P(N = 0) = 0,025 e P(N = 2) = 0,169. Pode-se ver que P(N 19) e 
muito pequena, menor do que 10 6 . 

Seria interessante avaliar se a distribuigao de Poisson realmente e um modelo razoavel 
para essa situagao. Um experimento devido a Rutherford e Geiger (veja Feller, 1964, pag. 149, para 
a referenda completa sobre esse experimento) de fato comprova essa adequagao. Eles 
observaram os numeros de particulas a emitidas por uma substancia radioativa em 
n = 2.608 intervals de 7,5 segundos. A Tabela 6.13 apresenta os numeros n k de intervalos 
de 7,5 segundos contendo k partfculas. Uma estimativa de A = numero medio de partfculas 
emitidas durante um intervalo de 7,5 segundos e dada por 


A = 


Xkn 


k 


10.094 


n 2.608 
As probabilidades de Poisson sao dadas por 


= 3,87. 


q S7kp-3,87 

p k = k = o, i, 2 - ■■■ 


Segue-se que np k e o numero esperado de intervalos contendo k partfculas, e esses 
valores tambem estao apresentados na Tabela 6.13. Vemos que ha uma boa coinciden- 
cia entre os valores das duas colunas. Um teste formal pode ser feito para verificar a 
adequagao da distribuigao de Poisson. Veja o Capftulo 14, Exemplo 14.5. 


Tabela 6.13: Frequences observadas e esperadas 
para o Exemplo 6.17. 


k 

n k 

n Pk 

O 

57 

54,399 

1 

203 

210,523 

2 

383 

407,361 

3 

525 

525,496 

4 

532 

508,418 

5 

408 

393,515 

6 

273 

253,817 

7 

139 

140,325 

8 

45 

67,882 

9 

27 

29,189 

>10 

16 

17,075 


2.608 

2.608,000 


Se considerarmos ocorrencias de eventos em intervalos de tempo de comprimento t, no 
lugar de intervalo unitario de tempo, basta ajustar o parametro A na formula (6.24). Vejamos 
um exemplo. 

Exemplo 6.18. Um telefone recebe, em media, cinco chamadas por minuto. Supondo que 
a distri buigao de Poisson seja adequada nessa situagao, obter a probabilidade de que o 
telefone nao receba chamadas durante um intervalo de um minuto. 
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Segue-se que A = 5 e 

P(N =0) = ^ = e 5 = 0,0067. 

Por outro lado, se quisermos a probabilidade de obter no maximo duas chamadas 
em quatro minutos, teremos X = 20 chamadas em quatro minutos, logo 

P (N ss 2) = P (N = 0) + P (N = 1) + P (N = 2) = e- 20 (1 + 20 + 200) = 221e- 20 , 
que e um numero muito proximo de zero. 

Esse exemplo nos mostra que a probabilidade de k ocorrencias num intervalo fixo 
de comprimento t pode ser escrita como 

P (N = k) = e ~ A W k , k =0, 1, 2. (6.25) 

k! 

onde X representa o numero medio de ocorrencias naquele intervalo. Denotaremos 
uma v.a. N com distribuigao de Poisson de parametro X por 

N ~ Pois(A). 

Apresentamos, na Tabela 6.14, um resumo das distribuigoes discretas estudadas 
neste capitulo. Para cada uma temos a formula que da a probabilidade de assumir cada 
valor, os possfveis valores, os parametros que caracterizam cada distribuigao, a media 
e a variancia. Inclufmos, tambem, a distribuigao geometrica, tratada no Problema 55. 


Tabela 6.14: Modelos para variaveis discretas. 


Modelo 

P(X = x) 

Parametros 

E (X), Var(X) 

Bernoulli 

p x (l - p) 1 " x , x = 0,1 

P 

p.pd- p) 

Binomial 

^jp x (l- p)"- x , x = 0,.... n 

n, P 

np,np(l- p) 

Poisson 

e " A f,x=0,1,... 
x! 

A 

A, A 

Geometrica 

p(l- p)*- 1 , x = 1, 2,... 

P 

1 (1-p) 

P' P 2 

Hipergeometrica 


N, r, n 

nr n( r Yl r V N_n) 

(!) " 

N ' yN jg N ) (N - 1) 


al a = max(0, n - N + r), b = minfr, n). 


i Jinn 


ernas 


20. Para os exercicios (a) a (e) abaixo, considere o enunciado: 

Das variaveis abaixo descritas, assinale quais sao binomiais, e para essas de os respecti- 
vos campos de definigao e fungao de probabilidade. Quando julgar que a variavel nao e 
binomial, aponte as razoes de sua conclusao. 
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(a) De uma urna com dez bolas brancas e 20 pretas, vamos extrair, com reposigao, cinco 
bolas. X e o numero de bolas brancas nas cinco extragoes. 

(b) Refaga o problema anterior, mas dessa vez as n extragoes sao sem reposigao. 

(c) Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cada 
urna. Suponha que X seja o numero de bolas brancas obtidas no final. 

(d) Vamos realizar uma pesquisa em dez cidades brasileiras, escolhendo ao acaso urn habi- 
tante de cada uma delas e classificando-o em pro ou contra urn certo projeto federal. 
Suponha que X seja o numero de indivfduos contra o projeto no final da pesquisa. 

(e) Em uma industria existem 100 maquinas que fabricam determinada pega. Cada pega 
e classificada como boa ou defeituosa. Escolhemos ao acaso urn instante de tempo e 
verificamos uma pega de cada uma das maquinas. Suponha que X seja o numero de 
pegas defeituosas. 

21. SeX — b(n,p), sabendo-se que E (X) = 12 e a 1 - 3, determ inar: 

(a) n (e) E (Z) e Var(Z), onde Z = (X - 12)/V3 

(b) p (f) P(Y s= 14/16), onde Y = X/n 

(c) P (X < 12) (g) P(Y 5* 12/16), onde Y = X/n 

(d) P(X>14) 

22. Numa central telefonica, o numero de chamadas chega segundo uma distribuigao de 
Poisson, com a media de oito chamadas por minuto. Determinar qual a probabilidade 
de que num minuto se tenha: 

(a) dez ou mais chamadas; 

(b) menos que nove chamadas; 

(c) entre sete (inclusive) e nove (exclusive) chamadas. 

23. Num certo tipo de fabricagao de fita magnetica, ocorrem cortes a uma taxa de um por 
2.000 pes. Qual a probabilidade de que um rolo com 2.000 pes de fita magnetica tenha: 

(a) nenhum corte? 

(b) no maximo dois cortes? 

(c) pelo menos dois cortes? 

24. Suponha que a probabilidade de que um item produzido por uma maquina seja defeituoso 
e de 0,2. Se dez itens produzidos por essa maquina sao selecionados ao acaso, qual e 
a probabilidade de que nao mais do que um defeituoso seja encontrado? Use a binomial e a 
distribuigao de Poisson e compare os resultados. 

25. Examinaram-se 2.000 ninhadas de cinco porcos cada uma, segundo o numero de ma¬ 
chos. Os dados estao representados na tabela abaixo. 


N 2 de Machos 

N 2 de Ninhadas 

0 

20 

1 

360 

2 

700 

3 

680 

4 

200 

5 

40 

Total 

2.000 
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(a) Calcule a proporgao media de machos. 

(b) Calcule, para cada valor de X, o numero de ninhadas que voce deve esperar se 
X ~ b(5, p), onde pea proporgao media de machos calculada em (a). 

26. Se X tern distribuigao binomial com parametros n = 5 e p = 1/2, faga os graficos da 
distribuigao de X e da f.d.a. F (x). 

27. Considere, agora, n = 5 e p = 1/4. Obtenha o grafico da distribuigao de X. Qual a 
diferenga entre esse grafico e o correspondente do Problema 26? O que ocasionou 
a diferenga? 

28. Refaga o Problema 26, com n = 6 e p = 1/2. 

6.7 O Processo de Poisson 

No Exemplo 6.17 acima vimos uma aplicagao importante da distribuigao de Poisson ao 
problema da desintegragao radioativa. La tratamos da emissao de partfculas alfa em intervals 
de 7,5 segundos. Ou seja, estamos contando o numero de ocorrencias de urn evento ao 
longo do tempo. Na realidade, consideramos o que se chama urn processo estocastico. 
Designando-se por N t o numero de partfculas emitidas no intervalo [0, t), obteremos o que se 
chama de processo de Poisson, para todo t > 0. Nesta segao iremos partir de algumas suposi- 
goes que consideramos plausfveis sobre tal processo e mostrar que a distribuigao da variavel 
aleatoria N t , para cada t = 0, e dada pela formula (6.25). 

As suposigoes que iremos admitir como validas sao as seguintes. 

(51) N 0 = 0, ou seja, o processo comega no instante zero com probabilidade urn: 
P(N 0 =0) =1. 

(52) Os numeros de eventos em intervalos de tempo disjuntos sao v.a. independen- 
tes. Considere 0 < t < t + s, N t como antes e N t+s - N t o numero de eventos no 
intervalo [t, t + s). Entao, estamos supondo que as v.a. N t e N t+s - N t sao inde- 
pendentes. Dizemos que o processo tern incrementos independentes. 

(53) Considere os intervalos [0, t) e [s, s +1), de mesmo comprimento t e as v.a. N t 
como antes e M t = numero de eventos no intervalo [s, s +1). Entao, para todo 
s > 0, as v.a. N t e M t tern a mesma distribuigao de probabilidades. Ou seja, a 
distribuigao do numero de eventos ocorridos num intervalo depende somente 
do comprimento do intervalo, e nao de sua localizagao. Dizemos que o pro¬ 
cesso tern incrementos estacionarios. 

(54) Para h suficientemente pequeno, P(N h = 1) ~ Ah, com A > 0, constante. Ou 
seja, num intervalo pequeno, a probabilidade de ocorrencia de urn evento e 
proporcional ao comprimento do intervalo. 

(55) Para h como em (S4), P(N h & 2) ~ 0. Isso nos diz que a probabilidade de se ter 
dois ou mais eventos num intervalo suficientemente pequeno e desprezivel. 

Considere o intervalo [0, t) e o divida em subintervalos de comprimento t/n, como 
na Figura 6.13. 
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Figura 6.13: Divisao de intervalo [0, t) em subintervalos de comprimentos t/n. 







0 

t 

n 

2t_ 

n 

(n-l)t 

n 

t 


Chamemos de Y a v.a. que da os numeros de subintervalos com um evento. Entao, Y e 
uma v.a. com distribuigao binomial, de parametros n (numero total de subintervalos) e p = 
P (um evento) = A(t/n). Para n grande, usando a aproximagao da segao anterior, temos que 
essa variavel pode ser aproximada por uma v.a. com distribuigao de Poisson com parametro 
np = nA(t/n) = At. Note que aqui usamos as suposigoes S2 (cada subintervalo contem um 
evento, independentemente dos demais intervalos) e S3 (com a mesma probabilidade). 

Pela suposigao 55, a probabilidade de que cada subintervalo contenha dois ou 
mais eventos tende a zero, quando n cresce. Logo, N t e uma v.a. com distribuigao de 
Poisson, com parametro At. 

Uma prova um pouco mais rigorosa, usando derivadas, pode ser dada. Veja M eyer (1965). 

6.8 Quantis 

No Capftulo 3 estudamos os quantis associados a um conjunto de dados. Esses pode- 
riam ser chamados de quantis empfricos, pois podemos agora considerar quantis associa¬ 
dos a distribuigao de uma v.a. discreta, os quais poderfamos denominar quantis teoricos. 

Definigao. 0 valor Q(p) satisfazendo 

P(X =£ Q(p)) p e P(X > Q(p)) > 1 - p, (6.26) 

para 0 < p < 1, e chamado o p-quantil de X. 

A interpretagao do p-quantil e similar a que foi dada no caso de um conjunto de 
dados: Q(p) e o valor tal que a soma das probabilidades dos valores menores do que 
ele, e p. Entao, por que nao defini-lo por F(Q(p)) = P(X «= Q(p)) = p, onde F(x) e a 
f.d.a. de X? A resposta sera dada acompanhando os exemplos a seguir. 

Para determinados valores de p teremos, como antes, denominagoes especiais. 
Por exemplo: 

Qj = Q(0,25): primeiro quartil 
Q 2 = Q(0,5): mediana ou segundo quartil 
Q 3 = Q(0,75): terceiro quartil. 

Vejamos o caso da mediana, Q(0,5) = Md. Por (6.26) devemos ter 

P (X Md) s* 0,5 e P (X s* Md) s* 0,5. (6.27) 


Suponha a v.a. X com a distribuigao: 
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X 

0 

1 

p(x) 

1/3 

2/3 


Entao Md =1, pois P(X 1) = 1/3 + 2/3 = 1 > 1/2 e P (X > 1) =P(X =1) =2/3 >1/2. 
Na Figura 6.14 temos a f.d.a. de X. Sabemos que 


F(x) H 


0, x < 0 
1/3, 0 ss x < 1 
1, x s* 1, 


de modo que nao existe algum valor x tal que F(x) = 0,5, o que ilustra por que nao 
podemos definir a mediana por meio de F(M d) = 0,5. 


Figura 6.14: f.d.a. da v.a. X 



Por outro lado, considere a v.a. Y com a distribuigao da tabela abaixo: 


Y 

-1 

0 

1 

p(y) 

1/4 

1/4 

1/2 


Entao, qualquer valor Md entre Oele uma mediana, pois 

P (Y M d ) = P (Y = -1) + P (Y = 0) = 1/2 ss 1/2 e 
P(Y & Md) = P(Y =1) =1/2 ^ 1/2. 


A f.d.a. de Y esta na Figura 6.15. Observe que 0 e 1 tambem sao medianas. Observe, 
tambem, que Q(0,75) = 1, pois 

P (X *£ 1) =1 3= p =0,75, 

P (X > 1) =0,5 5* 1- p =0,25. 

Novamente, nao ha nenhum valor de y tal que F (y) = 0,75. M ostre que Q(0,90) 
tambem e igual a 1. 
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Figura 6.15: f.d.a. da v.a. Y 



6.9 Exemplos Computacionais 

Usando programas e planilhas computacionais e possfvel gerar probabilidades e 
probabilidades acumuladas para os modelos mais importantes discutidos neste capftu- 
lo. Por exemplo, o Minitab usa os comandos PDF para gerar probabilidades e CDF 
para gerar probabilidades acumuladas (f.d.a.). 

Exemplo 6.19. Temos, no Quadro 6.1, as probabilidades P(X = x) e P(X x) para uma 
v.a. X ~ b(14; 0,3), ou seja, n = 14 e p = P(sucesso) = 0,3. 


Quadro 6.1 Probabilidades binomiais geradas pelo Minitab. 


MTB > PDF; 

SUBC> Binomial 14 0.3. 

Probability Density Function 


Binomial with n = 

14 and p 

= 0.300000 

X 

P(X = x) 

X 

P(X = x) 

0 

0.0068 

7 

0.0618 

1 

0.0407 

8 

0.0232 

2 

0.1134 

9 

0.0066 

3 

0.1943 

10 

0.0014 

4 

0.2290 

11 

0.0002 

5 

0.1963 

12 

0.0000 

6 

0.1262 




MTB > CDF; 

SUBC> Binomial 14 0.3. 

Cumulative Distribution Function 


Binomial with n = 

14 and p 

= 0.300000 

X 

P(X < = x) 

X 

P(X < = x) 

0 

0.0068 

6 

0.9067 

1 

0.0475 

7 

0.9685 

2 

0.1608 

8 

0.9917 

3 

0.3552 

9 

0.9983 

4 

0.5842 

10 

0.9998 

5 

0.7805 

11 

1.0000 


Ainda, usando o M initab, temos no Quadro 6.2 as probabilidades e probabilidades 
acumuladas para uma v.a. com distribuigao de Poisson com parametro A = 5,2. 
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Quadra 6.2 Probabilidades de Poisson geradas pelo Minitab. 


MTB > PDF; 

SUBC> Poisson 5.2. 

Probability Density Function 

Poisson with mu = 5.20000 


X 

>< 

II 

& 

X 

P(X = x) 

0 

0.0055 

9 

0.0423 

1 

0.0287 

10 

0.0220 

2 

0.0746 

11 

0.0104 

3 

0.1293 

12 

0.0045 

4 

0.1681 

13 

0.0018 

5 

0.1748 

14 

0.0007 

6 

0.1515 

15 

0.0002 

7 

0.1125 

16 

0.0001 

8 

0.0731 

17 

0.0000 


MTB > CDF; 

SUBC> Poisson 5.2. 

Cumulative Distribution Function 

Poisson with mu = 5.20000 


X 

P(X <= x) 

X 

P(X < = x) 

0 

0.0055 

9 

0.9603 

1 

0.0342 

10 

0.9823 

2 

0.1088 

11 

0.9927 

3 

0.2381 

12 

0.9972 

4 

0.4061 

13 

0.9990 

5 

0.5809 

14 

0.9997 

6 

0.7324 

15 

0.9999 

7 

0.8449 

16 

1.0000 

8 

0.9181 




Na planilha Excel podem ser usadas fungoes especfficas dentro da categoria E starts- 
tica. Porexemplo, paracalculoscom adistribuigao binomial, usarafungao DISTRBINOM; 
para a distribuigao de Poisson, usar a fungao POISSON. 

6.10 Problemas e Complementos 

29. Um florista faz estoque de uma flor de curta duragao que Ihe custa $0,50 e que ele vende a 
$1,50 no primeiro dia em que a flor esta na loja. Toda flor que nao e vendida nesse primeiro 
dia nao serve mais e e jogada fora. Seja X a variavel aleatoria que denota o numero de 
flores que os fregueses compram em um dia casualmente escolhido. O florista descobriu 
que a fungao de probabilidade de X e dada pela tabela abaixo. 


X 

0 

1 

2 

3 

p(x) 

0,1 

0,4 

0,3 

0,2 


Quantas flores deveria o florista ter em estoque a fim de maximizar a media (valor 
esperado) do seu lucro? 

30. As cinco primeiras repetigoes de um experimento custom $10,00 cada. Todas as repetigoes 
subsequentes custom $5,00 cada. Suponha que o experimento seja repetido ate que o 
primeiro sucesso ocorra. Se a probabilidade de sucesso de uma repetigao e igual a 0,9, e 
se as repetigoes sao independentes, qual e o custo esperado da operagao? 

31. Na manufatura de certo artigo, e sabido que um entre dez dos artigos e defeituoso. Qual 
a probabilidade de que uma amostra casual de tamanho quatro contenha: 

(a) nenhum defeituoso? 

(b) exatamente um defeituoso? 

(c) exatamente dois defeituosos? 

(d) nao mais do que dois defeituosos? 
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32. Um fabricante de pegas de automoveis garante que uma caixa de suas pegas contera, no 
maximo, duas defeituosas. Se a caixa contem 18 pegas, e a experiencia tem demonstrado 
que esse processo de fabricagao produz 5% das pegas defeituosas, qual a probabilidade 
de que uma caixa satisfaga a garantia? 

33. Um curso de treinamento aumenta a produtividade de uma certa populagao de funcio- 
narios em 80% dos casos. Se dez funcionarios quaisquer participam desse curso, encontre 
a probabilidade de: 

(a) exatamente sete funcionarios aumentarem a produtividade; 

(b) nao mais do que oito funcionarios aumentarem a produtividade; e 

(c) pelo menos tres funcionarios nao aumentarem a produtividade. 

34. O numero de petroleiros que chegam a uma refinaria em cada dia ocorre segundo uma 
distribuigao de Poisson, com X -2. As atuais instalagoes podem atender, no maximo, a tres 
petroleiros por dia. Se mais de tres aportarem num dia, o excesso e enviado a outro porto. 

(a) Em um dia, qual a probabilidade de se enviar petroleiros para outro porto? 

(b) De quanto deverao ser aumentadas as instalagoes para permitir atender a todos os 
navios que chegarem pelo menos em 95% dos dias? 

(c) Qual o numero medio de petroleiros que chegam por dia? 

35. Na tabela abaixo, X significa numero de filhos homens em familias com 12 filhos. Calcule 
para cada valor da variavel o numero de familias que voce deveria esperarseX ~ b( 12; 0,5). 


X 

N 2 observado de familias 

0 

6 

1 

29 

2 

160 

3 

521 

4 

1.198 

5 

1.921 

6 

2.360 

7 

2.033 

8 

1.398 

9 

799 

10 

298 

11 

60 

12 

7 

Total 

10.690 


Voce acha que o modelo binomial e razoavel para explicar o fenomeno? 

36. Houve uma denuncia por parte dos operarios de uma industria de que, toda vez que 
ocorria um acidente em uma segao da industria, ocorriam outros em outras segoes mais 
ou menos no mesmo horario. Em outras palavras, os acidentes nao estavam ocorrendo 
ao acaso. Para verificar essa hipotese, foi feita uma contagem do numero de acidentes 
por hora durante um certo numero de dias (24 horas por dia). Os resultados da pesquisa 
foram apresentados no quadro a seguir. 
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N e de acidentes por hora 

N 2 de horas 

0 

200 

1 

152 

2 

60 

3 

30 

4 

13 

5 

9 

6 

7 

7 

5 

8 

4 


(a) Calcule o numero medio de acidentes por hora nessa amostra. 

(b) Se o numero de acidentes por hora seguisse uma distribuigao de Poisson, com media 
igual a que voce calculou, qual seria o numero esperado de dias com 0,1, 2,... etc. 
acidentes? 

(c) Os dados revelam que a suspeita dos operarios e verdadeira? 

37. Determinado tipo de parafuso e vendido em caixas com 1.000 pegas. E uma caracteristica 
da fabricagao produzir 10% com defeito. Normalmente, cada caixa e vendida por $13,50. 
Urn comprador faz a seguinte proposta: de cada caixa, ele escolhe uma amostra de 20 
pegas; se a caixa nao tiver parafusos defeituosos, ele paga $20,00; urn ou dois defeituo- 
sos, ele paga $10,00; tres ou mais defeituosos, ele paga $8,00. Qual alternativa e a mais 
vantajosa para ofabricante? Justifique. 

38. Uma certa regiao florestal foi dividida em 109 quadrados para estudar a distribuigao de 
Primula Simenses Selvagem. A priori, supomos que esse tipo distribua-se aleatoriamente na 
regiao. O quadro abaixo indica o numero de quadrados com X Primula Simenses; o numero 
medio de plantas por quadrado foi de 2,2. 


X plantas 
por quadrado 

N 2 de quadrados 
com X plantas 

0 

26 

1 

21 

2 

23 

3 

14 

4 

11 

5 

4 

6 

5 

7 

4 

8 

1 

acima de 8 

0 


(a) Se as plantas realmente se distribuem aleatoriamente na regiao, qual a probabilidade 
de encontrarmos pelo menos duas Primulas? 

(b) De as frequencies esperadas para os valores deX =0, X = leX = 2. 

(c) Apenas comparando os resultados de (b) com as frequencies observadas, qual a 
conclusao a que voce chegaria? 

(d) Quais as causas que voce daria para a conclusao? 
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39. Uma fabrica produz valvulas, das quais 20% sao defeituosas. As valvulas sao vendidas 
em caixas com dez pegas. Se uma caixa nao fiver nenhuma defeituosa, seu prego de 
venda e $10,00; tendo uma, o prego e $8,00; duas ou tres, o prego e $6,00; mais do que 
tres, o prego e $2,00. Qual o prego medio de uma caixa? 

40. Urn industrial fabrica pegas, das quais 1/5 sao defeituosas. Dois compradores A e B, 
classificaram as partidas adquiridas em categorias I e 11, pagando $1,20 e $0,80 respec- 
tivamente do seguinte modo: 

Comprador A: retira uma amostra de cinco pegas; se encontrar mais que uma defeituosa, 
classifica como II. 

Comprador B: retira amostra de dez pegas; se encontrar mais que duas defeituosas, 
classifica como II. 

Em media, qual comprador oferece maior lucro? 

41. SeX ~ b(n, p), prove que E (X) =np e Var(X) =npq. 

(Sugestao: calcule E(X ) e Var(X) para n = 1, 2,... etc.) 

42. Aceitagao de urn lote. Suponha que urn comprador queira decidir se vai aceitar ou nao 
um lote de itens. Para isso, ele retira uma amostra de tamanho n do lote e conta o 
numero X de defeituosos. Se X a, o lote e aceito, e se X >a, o lote e rejeitado; o numero 
a e fixado pelo comprador. Suponha que n = 19 e a = 2. Use a Tabela I a fim de 
encontrar a probabilidade de aceitar o lote, ou seja, P (X ^2) para as seguintes propor- 
goes de defeituosos no lote: 

(a) p =0,10 (b) p = 0,20 (c) p = 0,05 

43. Prove que, quando n ->■ °° e p -> 0, mas de tal sorte que np ** A, temos 



Sugerimos que voce use o fa to: 11 - Aj -> e~ A quando n -> °°. 

44. Suponha que X seja uma v.a. discreta, com f.p. p(x) = 2~ x , X = 1, 2,... Calcule: 

(a) P (X ser par) (b) P(X^3) (c) P (X > 10) 

45. Prove (6.4), (6.5) e (6.6). 

46. Prove que E (X) =Var(X) = A, se a P (X = k) for dada por (6.24). 

47. Prove a relagao (6.19). 

48. Num teste tipo certo/errado, com 50 questoes, qual e a probabilidade de que um aluno 
acerte 80% das questoes, supondo que ele as responda ao acaso? 

49. Repita o Problema 48, considerando cinco alternativas para cada questao. 

50. Em um experimento binomial com tres provas, a probabilidade de exatamente dois suces- 
sos e 12 vezes a probabilidade de tres sucessos. Encontre p. 
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51. No sistema abaixo, cada componente term probabilidade pde funcionar. Supondo inde¬ 
pendence de funcionamento dos componentes, qual a probabilidade de: 



(a) o sistema funcionar? 

(b) o sistema nao funcionar? 

(c) exatamente dois componentes funcionarem? 

(d) pelo menos cinco componentes funcionarem? 

52. Prove que 

Wk+1: ^ p)= wwV' b|k:l ' p) 

53. Encontre a mediana da v.a. Zcom distribuigao 


z 

0 

1 

2 

3 

P(Z) 

1/4 

1/4 

1/4 

1/4 


54. Encontre os quantis de ordens p = 0,25, 0,60, 0,80 da v.a. Zdo exerdcio 53. 

55. Distribuigao Geometrica. Suponha que, ao realizar um experimento, ocorra o evento Acorn 
probabilidade pou nao ocorra A(ou seja, ocorre A c com probabilidade 1 - p). Repetimos 
o experimento de forma independente ate que o evento Aocorra pela primeira vez. 

Seja X = numero de repetiqao do experimento ate que se obtenha Apela primeira vez. Entao, 

P(X = j) =(1 - p)M. p, j = 1, 2, 3. 

pois se X=j, nas primeiras j - 1 repetiqoes A nao ocorre, ocorrendo na j-esima. 

(a) Prove que X P(X = j) = 1. 

j=i 

(b) Mostre que E(X) = 1/p e Var(X) = (l - p)/p 2 . 

[Sugestao: E(X) = Xj ■ p(X =j) = p^j ■ (1 - p) j ~ 1 = p^ ^ q j , com 1 - p = q.] 

J=i i=i l=i aq 

fcj Se Se tsao inteiros positivos, entao 

P(X > s + tl X > s) =P(X>t). 
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CAPITULO 6 — VARIAVEIS A LEATO RI AS DISCRETAS 


Essa propriedade nos diz que a distribuigao geometrica nao tem memoria. Essa proprie- 
dade e compartilhada pela distribuigao exponencial, a ser estudada no Capitulo 7. 

56. (Meyer, 1965). O custo de realizagao de um experimento e $1,000,00. Se o experimento 
falha, um custo adicional de $300,00 tem de ser imposto. Se a probabilidade de sucesso 
em cada prova e 0,2, se as provas sao independentes e continuadas ate a ocorrencia do 
primeiro sucesso, qual o custo esperado do experimento? 

57. Distribuigao de Pascal. Considere a mesma situagao experimental do Problema 55, so 
que agora o experimento e continuado ate que o evento A ocorra pela r-esima vez. Defina 
a v.a. Y = numero de repetigoes necessarias para que A ocorra exatamente r vezes. Note 
que, se r = 1, obtemos a distribuigao geometrica. Mostre que 

P(Y =j) = (r - i) prqi_r ' J = r - r + 1 - ■■■ 

58. A Desigualdade de Jensen. Vimos, na formula (6.4), que se h(x) =ax + b, entao E [h(X)] = 
h[E(X)], ou seja, E (aX + b) = aE(X) + b. 

Esta formula pode nao valer se h(x) nao for linear. O que vale e o seguinte resultado, 
denominado Desigualdade de Jensen. Se h(x) for uma fungao convexa e X uma v.a., 
entao 


E[h(X)] 5= h[E (X)], 

com igualdade se e somente se h for linear (ou se a variancia de X for zero). 

Por exemplo, se h(x) = X 2 , entao E(X 2 ) 3= [E(X)] 2 , do que decorre que Var(X) = E (X 2 ) - 
[E (X)] 2 3= 0. 

Lembremos que uma fungao h e convexa se h((x +y)/2) ^ (h(x) +h(y))/2, para todo parx, 
y no dominio de h. Em termos geometricos, h e convexa se o ponto medio da corda que 
une dois pontos quaisquer da curva representando h esta acima da curva. A fungao h e 
concava se - h for convexa. Por exemplo, log X e uma fungao concava. 

59. Use o problema anterior para verificar as relagoes entre: 

(a) E(e x )ee E(X) ; 

(b) E (log X) e log [E (X)], para X >0; 

(c) E(l/X) e 1/E {X), para X =1= 0. 



Capitulo 7 


Variaveis Aleatorias Contfnuas 


7.1 Introducao 

Neste capitulo iremos estudar modelos probabiIisticos para variaveis aleatorias con¬ 
tfnuas, ou seja, variaveis para as quais os possfveis valores pertencem a um intervalo 
de numeros reais. A definigao dada no capitulo anterior, para v.a. discreta, deve ser 
modificada como segue. 

Definigao. Uma fungao X, definida sobre o espago amostral Q e assumindo valores 
num intervalo de numeros reais, e dita uma variavel aleatoria contfnua. 

No Capitulo 2 vimos alguns exemplos de variaveis contfnuas, como o salario de 
indivfduos, alturas etc. A caracterfstica principal de uma v.a. contfnua e que, sendo 
resultado de uma mensuragao, o seu valor pode ser pensado como pertencendo a um 
intervalo ao redor do valor efetivamente observado. Por exemplo, quando dizemos 
que a altura de uma pessoa e 175 cm, estamos medindo sua altura usando cm como 
unidade de medida e portanto o valor observado e, na realidade, um valor entre 174,5 cm 
e 175,5 cm. 

Vejamos um exemplo para motivar a discussao que se segue. 

Exemplo 7.1 0 ponteiro dos segundos de um relogio mecanico pode parar a qualquer 
instante, devido a algum defeito tecnico, ou termino da bateria, e vamos indicar por X 
o angulo que esse ponteiro forma com o eixo imaginario passando pelo centro do 
mostrador e pelo numero XII, conforme mostra a Figura 7.1. 


Tabela 7.1: Distribui^ao uniforme discreta. 


X 


6° 

12° 

18° 


348° 

354° 

p(x) 

1/60 

1/60 

1/60 

1/60 


1/60 

1/60 
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CAPITULO 7 — VARIAVEIS ALEATORIAS CONTINUAS 


Figui a 7.1 llustraipao de uma v.a. X discreta. 



Medindo esse angulo X em graus e lembrando que: 

(i) o ponteiro deve dar 60 "saltos" (ele da um salto em cada segundo) para completar 
uma volta; 

(ii) acreditamos que o ponteiro tenha probabilidade igual de parar em qualquer ponto, 
entao, a v.a. X tern distribuigao uniforme discreta, com fungao de probabilidade dada 
pelaTabela 7.1 e representada graficamente na Figura 7.2. 


Figura 7.2: Distribui^ao uniforme discreta. 



Considerando esse mesmo problema com um relogio eletrico, para o qual o ponteiro 
dos segundos move-se continuamente, necessitamos de um outro modelo para repre- 
sentar a v.a. X. Primeiro, observamos que o conjunto dos possfveis valores de X nao e 
mais um conjunto discrete de valores, pois X pode assumir qualquer valor do intervalo 
[0,360) = = {x e IR: 0 « x < 360}. Em segundo lugar, como no caso do relogio 
mecanico, continuamos a acreditar que nao exista uma regiao de preference para o 
ponteiro parar. Como existem infinites pontos nos quais o ponteiro pode parar, cada 
um com igual probabilidade, se fossemos usar o mesmo metodo usado para a v.a. 
discreta uniforme, cada ponto teria probabilidade de ocorrer igual a zero. Assim nao 
tern muito sentido falar na probabilidade de que o angulo X seja igual a certo valor, 
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pois essa probabilidade sempre sera igual a zero. Entretanto, podemos determinar a 
probabilidade de que X esteja compreendido entre dois valores quaisquer. Por exem- 
plo, usando a Figura 7.1 como referenda, a probabilidade de o ponteiro parar no 
intervalo compreendido entre os numeros XII e III e 1/4, pois esse intervalo corresponde 
a 1/4 do intervalo total. 

Podemos, pois, escrever 

P(0°« X « 90°) = -j. 

Do mesmo modo, a probabilidade P(120° X ss 150°) = 1/12. Por menor que seja 
o intervalo, sempre poderemos calcular a probabilidade de o ponteiro parar num pon- 
to qualquer desse intervalo. E e facil verificar que, nesse caso, dados dois numeros a e 
b, tais que 0° «= a < b < 360°, a probabilidade de X e [a, b) e 

P (a X < b) 

360° 

Atraves da divisao do intervalo [0°, 360°) em pequenos subintervalos, podemos 
construir urn histograma para as probabilidades da v.a. X (como fizemos para v.a conti- 
nuas no Capitulo 2). Ou ainda, como naquele capftulo, fazendo esses intervalos tende- 
rem a zero, podemos construir o histograma alisado da v.a. X, apresentado na Figura 7.3. 


Figura 7.3: Histograma alisado: distribuigao uniforme contfnua. 



O histograma alisado da Figura 7.3 corresponde a seguinte fungao: 


f(x) =< 


0, se x < 0° 

1/360, se 0° x < 360° 

0, se x 52 360°. 


Como vimos na construgao de histogramas, a area correspondente ao intervalo 
[a, b) (hachurada na Figura 7.3) deve indicar a probabilidade de a variavel estar entre a e 
b. M atematicamente, isso e expresso por meio da integral da fungao entre a e b; entao, 


P (a ^ X < b )=f f (x)dx = /" 1 dx = 

3 ■'a 360 360 


pois a integral definida de uma fungao entre dois pontos determina a area sob a curva 
representativa da fungao, compreendida entre esses dois pontos. 

A fungao f(x) e chamada fungao densidade de probabilidade (f.d.p.) da v.a. X. 
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CAPITULO 7 — VARIAVEIS ALEATORIAS CONTINUAS 


Podemos construir modelos teoricos para variaveis aleatorias contfnuas, escolhen- 
do adequadamente as fungoes densidade de probabilidade. Teoricamente, qualquer 
fungao f, que seja nao negativa e cuja area total sob a curva seja igual a unidade, 
caracterizara uma v.a. contmua. 

Exemplo 7.2. Se f(x) = 2x, para 0«x«l,e zero fora desse interval o, vemos que f(x) > 0, 
para qualquer x, e a area sob o grafico de f(x) e unitaria (verifique na Figura 7.4). 
Logo, a fungao f pode representar a fungao densidade de uma v.a. contmua X. 


Figura 7.4: f.d.p. da v.a. X do Exemplo 7.2. 



Para esse caso, P(0 x 1/2) e igual a area do triangulo de base 1/2 e altura 1, 
hachurado na Figura 7.4; logo, a probabilidade em questao e 

P(0^X ^l/2)=l(lxl) = l. 

Observamos, entao, que a probabilidade de essa v.a. assumir urn valor pertencente 
ao intervalo [0, 1/2) e menor que a probabilidade de a variavel assumir urn valor 
pertencente ao intervalo [1/2, 1). 

A comparagao das fungoes densidade dos dois ultimos exemplos ajuda a entender seu 
significado. No primeiro exemplo, consideremos dois intervalos, \ 1 = [a, b) e l 2 = [c, d), 
contidos no intervalo [0,360), com a mesma amplitude (b - a = d - c); entao, 

p (x g g =p(x g g. 

0 mesmo nao acontece no segundo exemplo: dados dois intervalos de mes¬ 
ma amplitude, aquele mais proximo de 1 ira apresentar maior probabilidade. Ou 
seja, a probabilidade de que a v.a. X assuma urn valor num intervalo de amplitu¬ 
de fixa depende da posigao do intervalo; existem regioes com maior chance de 
ocorrer, e o que determina esse fato e a fungao densidade de probabilidade. Por- 
tanto, a f.d.p. e urn indicador da concentragao de "massa" (probabilidade) nos 
possfveis valores de X. Convem ressaltar ainda que f(x) nao representa a probabi¬ 
lidade de ocorrencia de algum evento. A area sob a curva entre dois pontos e que 
ira fornecer a probabilidade. 
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1. Dada a fungao 



2e~ 2x , X 3= 0 


. 0, X < 0, 


(a) Mostre que esta e uma f.d.p. 

(b) Calcule a probabilidade de X > 10. 

2. Uma v.a. X tern distribuigao triangular no intervalo [0, 1] se sua f.d.p. for dada por 

0, X < 0 

fM = J Cx, 0^x^l/2 

ni C(l-x), l/2=sx^l 

.0, x > 1. 


(a) Qual valor deve ter a constante C ? 

(b) Faga o grafico de f (x). 

(c) Determine P (X *£ 1/2), P (X > 1/2) e P (1/4 ^ X « 3/4). 

3. Suponha que estamos atirando dardos num alvo circular de raio 10 cm, e seja X a 
distancia do ponto atingido pelo dardo ao centro do alvo. A f.d.p. de X e 


f(x) = 


kx, seO =s x io 
. 0, paraosdemaisvalores. 


(a) Qual a probabilidade de acertar o centro do alvo, se esse for urn circulo de 1 cm de 
raio? 

(b) Mostre que a probabilidade de acertar qualquer circulo concentrico e proporcional a 
sua area. 


4. Encontre o valor da constante C se 


f(x) = 


C/X 2 , X 3= 10 
0, x < 10 


for uma densidade. Encontre P (X > 15). 


7.2 Valor Medio de uma Variavel Aleatoria Con tin ua 

Do que foi visto ate aqui, deduz-se que qualquer fungao f(■), nao-negativa, tal que 

/ f(x)dx = 1, 

define uma v.a. contfnua X, ou seja, cria um modelo teorico para as frequences 
relativas de uma v.a. contfnua. A area compreendida entre dois valores, a e b, da 
abscissa x, sob a curva representativa de f(x), da a probabilidade (proporgao teorica) 
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CAPITULO 7 — VARIAVEIS ALEATORIAS CONTINUAS 


da variavel pertencer ao intervalo limitado pelos dois valores. Usando o conceito de 
integral, podemos escrever 


P (a ss X b) = / b f(x)dx. (7.1) 

•/a 

Vejamos agora como podemos definir a esperanga (valor medio ou media) de uma 
v.a. contfnua. Para isso, usaremos urn artiffcio semelhante aquele usado na segao 3.1 
para calcular a media das variaveis quantitativas, com os dados agrupados em classes. 
La substituimos todos os valores de urn intervalo (classe) por urn unico valor aproxima- 
do (o ponto medio do intervalo), e agimos como se a variavel fosse do tipo discrete. 
Aqui iremos repetir esse artiffcio. 

Consideremos a v.a. X com fungao densidade f(x) e dois pontos a e b, bem proxi- 
mos, isto e, h = b - a e pequeno, e consideremos x 0 o ponto medio do intervalo [a, b]. 
Observando a Figura 7.5 e facil verificar que 

P (a X b) - h f(x 0 ), (7.2) 

o que significa aproximar a area da parte hachurada pelo retangulo de base h e altura 
f(x 0 ). E facil ver que a aproximagao melhora com h tendendo a zero. 


Figura 7.5 Area hachurada representa P(a =s X =s b). 



Dividamos agora o intervalo [A, B], onde f(x) > 0, em n partes de amplitudes iguais a 
h = (B - A)/n (Figura 7.6) e consideremos os pontos medios desses intervalos, x 1( x 2 ,..., x n . 


Figura 7.6: Particao do intervalo [A, B], 
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Consideremos a v.a. Y n , assumindo os valores x 1( x n com as probabilidades 


Pi = P (Y n = x.) — f(x.)h. 


Dessa maneira, e de acordo com a definigao de esperanga, temos 

E(Y ) = Ex i p i « Ex, f(x.)h, 

" i =1 1 1 i =i 1 1 


que sera uma aproximagao da esperanga E(X). Para determinar E(X) com maior preci- 
sao, podemos aumentar o numero de intervalos, diminuindo sua amplitude h. No Iimi¬ 
te, quando h ->■ 0, teremos o valor de E(X). Definamos, pois, 


E(X) = lim E(Y ) = lim Ex. f(x.)h. 

n->=° n n->* i=l 1 1 


(7.3) 


Mas da definigao de integral (veja Morettin et al., 2005), temos que, se o limite 
(7.3) existe, ele define a integral de x f(x) entre A e B, isto e, 

E(x) = f xf(x)dx. (7 ' 4) 

J A 


Exemplo 7.3. Continuando com o Exemplo 7.2, observamos que, dividindo o in- 
tervalo [0, 1] em n subintervalos, teremos h = 1/n, x. = (2i -l)/2n e f(x i ) = (2i - l)/n, 
i = 1, 2,..., n. Portanto, 


E(Y„)=Z 


i =1 


21 - l\/2i - 
2 n 




E (2i - l) 2 


__i_ {nl 2 njMM 2 nj_l) j _ 1 ( 2 + 1)) 2 - i), 


na qual usamos o conhecido resultado que da a soma dos quadrados dos primeiros n 
numeros fmpares. Logo, 


E(X) = lim ^ 

n^“ 6 



2 

3 


0 mesmo resultado e obtido diretamente da relagao (7.4): 


E (X) = ( 1 (x)(2x)dx 


2X 3 ] 1 
. 3 Jo 


3 ' 


Exemplo 7.4 No caso do relogio eletrico do Exemplo 7.1, obtemos 


E (X) 


fx 1 

dx = 

1 X 2 

/o 360 


[ 360 2 J 


360 

0 


= 180, 


que e o valor esperado devido a distribuigao uniforme das frequencias teoricas. 
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Como a fungao f(x) e sempre nao-negativa, podemos escrever a esperanga como 

E (X) =/; Xf(x)dx. (7.5) 

A extensao do conceito de variancia para v.a. contfnuas e feita de maneira seme- 
Ihante e o equivalente a expressao (6.2) e 

Var(X) =E[(X - E(X)) 2 ] = /_” (x - E(X)) 2 f(x)dx. (7.6) 


Exemplo 7.5. Para os dois exemplos vistos anteriormente, teremos: 
(i) Para o caso do relogio, 


7*360 


Var(X) = l (x-180) 2 
(ii) Para o Exemplo 7.2, 
Var(X) = 


1 dx= 1 


360 


360 


360x 2 


+ 180 2 x 


360 


= 10.800; 


Jo 


x - —) 2xdx = 2 


4x 3 2x 2 
9 9 


18 


Como no caso de v.a. discretas, o desvio padrao de uma v.a. continua X e definido como 

DP(X) = WarOO, (7.7) 

que e dado na mesma unidade de medida do que X. Deixamos a cargo do leitor a 
verificagao de que o seguinte resultado vale, como consequencia de (7.6): 

Var(X) = E(X 2 ) - [E(X )] 2 . (7.8) 

Como frisamos no Capitulo 6, frequentemente usaremos outros simbolos para in¬ 
dicar os parametros discutidos, a saber: 

E (X) = ,u(X), 

Var(X) = <t 2 (X ), 

D P (X) = cr(X ), 

ou simplesmente /u, a 2 e a, respectivamente, se nao houver possibilidade de confusao. 


7.3 Funcao de Distribuicao Acumulada 

Dada uma v.a. X com fungao densidade de probabilidade f(x), podemos definir a sua 
fungao de distribuigao acumulada, F (x), do mesmo modo como foi definida no Capitulo 6: 

F(x) = P(X x), -oo < x < oo. (7.9) 

De (7.1) segue-se que 

F(x) =[l f(t)dt, (7.10) 

para todo real x. 
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7.3 FUNCAO DE DISTRIBUICAO ACUMULADA 


Exemplo 7.6. Retomemos o Exemplo 7.2. Temos 

r o, 


se x < 0 


F (x) = 


/ 2tdt = x 2 , se 0 x < 1 

J 0 

f l 2tdt + [* Odt = 1, sex =s 1. 

■7o 


0 grafico de F (x) esta na Figura 7.7. 

Figure! 7.7: f.d.a. da v.a. X do Exemplo 7.6. 


f(x) 



0 


X 


De (7.9), vemos que 0 «= F (x) 1, para todo x real; alem disso, F (x) e nao-decres- 

cente e possui as duas seguintes propriedades: 

(i) lim x ^_ oo F (x) = 0, 

(ii) lim x _F(x) = 1. 

No Exemplo 7.6 temos, efetivamente, F(x) = 0, para x < 0 e F(x) = 1, para x > 1. 
Para v.a. contfnuas, o seguinte resultado e importante. 

Proposipao 7.1. Para todos os valores de x para os quais F (x) e derivavel temos 

F '(x) = ^ ^ = f(x). 
dx 

Vamos usar esse resultado no exemplo a seguir. 

Exemplo 7.7. Suponha que 



seja a f.d.a. de uma v.a. X. Entao, 



se x < 0 


se x 0. 
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Na Figura 7.8 temos os graficos dessas duas fungoes. Veremos que f(x) e um caso 
especial da densidade exponencial, a ser estudada na segao 7.4.3. 

Figura 7.8 Distribuigao exponencial (/? = 1) (a) f.d.a. (b) f.d.p. 



Se a e b forem dois numeros reais quaisquer, 

P(a < X ss b) =F(b) - F(a). (7.11) 

Esse resultado nao sera afetado se incluirmos ou nao os extremos a e b na desi- 
gualdade entre parenteses. 


5. Calcule a esperanga, a variancia e a f.d.a. da v.a. X do Problema 2. 

6. Determine a esperanga e a variancia da v.a. cuja f.d.p. e 


[ sen x, 0 x n/2 
1 0, caso contrario. 


7. Calcule a media da v.a. X do Problema 4. 

8. A v.a. contfnua X tern f.d.p. 


f(x) 


3x 2 , -Ux«0 

0, caso contrario. 


(a) Se b for um numero que satisfaz -1 < b < 0, calcule P (X > b IX < b/2). 

(b) Calcule E(X)eVar(X). 

9. Certa liga e formada pela mistura fundida de dois metais. A liga resultante contem certa 
porcentagem de chumbo, X, que pode ser considerada uma v.a. com f.d.p. 

f (x) = y 10' 5 x( 100 - x), 0 =£ X sc 100. 

Suponha que L, o lucro liquido obtido na venda dessa liga (por unidade de peso), seja 
dado por L = C : +C 2 X. Calcule E(L), o lucro esperado por unidade. 
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7.4 ALGUNS MODELOS PROBABILISTICOS PARA VARIAVEIS ALEATORIAS CONTINUAS 


10. A demanda diaria de arroz num supermercado, em centenas de quilos, e uma v.a. com 
f.d.p. 


f(x)H 


' 2x/3, 
-x/3 +1, 
0 , 


se 0 s; x < 1 
se 1 =£ x < 3 
sex < 0 ou x > 3. 


(a) Qual a probabilidade de se vender mais do que 150 kg, num dia escolhido ao acaso? 

(b) Em 30 dias, quanto o gerente do supermercado espera vender? 

(c) Qual a quantidade de arroz que deve ser deixada a disposiqao dos clientes dia¬ 
ria mente para que nao falte arroz em 95% dos dias? 

11 . Suponha que X tenha f.d.p. f (x) do Problema 1. Calcule E (X ) e Var(X). 

12. Seja X com densidade 

f ( x ) = jc(l-X 2 ), se -1 =£ X =£ 1 
1 0, caso contrario. 


Calcule a media e a variancia de X. 


7.4 Alguns Modelos Probab l isticos para Variaveis Aleatorias 
Continuas 

De modo geral, podemos dizer que as v.a. cujos valores resultam de algum proces- 
so de mensuragao sao v.a. continuas. Alguns exemplos sao: 

(a) o peso ou a altura das pessoas de uma cidade; 

(b) a demanda diaria de arroz num supermercado; 

(c) o tempo de vida de uma lampada; 

(d) o diametro de rolamentos de esferas; e 

(e) erros de medidas em geral, resultantes de experimentos em laboratories. 

Dada uma v.a. contfnua X, interessa saber qual a f.d.p. de X. Alguns modelos sao 
frequentemente usados para representar a f.d.p. de v.a. continuas. A Iguns dos mais utiliza- 
dos serao descritos a seguir e, para uniformizar o estudo desses modelos, iremos em cada 
caso analisar: 

(a) definigao; 

(b) grafico da f.d.p.; 

(c) momentos: E(X),Var(X); 

(d) fungao de distribuigao acumulada (f.d.a.). 

Outros modelos serao apresentados na segao 7.7. 
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CAPlTULO 7 — VARIAVEIS ALEATORIAS CONTINUAS 


7.4.1 O Modelo Uniforme 

0 modelo uniforme e uma generalizagao do modelo estudado no Exemplo 7.1 e e 
o modelo mais simples para v.a. contfnuas. 


(a) Definigao A v.a. X tern distribuigao uniforme no intervalo [a, p] se sua f.d.p. e 
dada por 


1 


f(x; a, p) =< 


p-a' 

0 , 


se a ss x s= p, 
caso contrario. 


(7.12) 


(b) G rafico. A Figura 7.9 representa a fungao dada por (7.12). 


Figure! 7.9: Distribui?ao uniforme no intervalo [a, P], 



(c) Momentos. Pode-se mostrar (veja o Problema 29) que 

E (X ) = 

Var(X) = ^ ~ 2 a)2 . 


(7.13) 

(7.14) 


(d) F.d.a, A fungao de distribuigao acumulada da uniforme e facil de ser encontra- 
da (veja o Problema 29): 

0, se x < a 


F(x) = P (X «= x) = I ' f(x)dx = 
cujo grafico esta na Figura 7.10. 


x - a 


, se a ss x < p 


p- a' 

1 , sex^p, 


(7.15) 


Figura 7.10: f.d.a. de uma v.a. uniforme no intervalo [a, /?]. 
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Assim, para dois valores quaisquer c e d, c < d, teremos 

P(c < X ss d) = F(d) - F(c), 
que e obtida facilmente de (7.15). 

Usaremos a notagao 

X ~ U(a, j8) 

para indicar que a v.a. X tem distribuigao uniforme no intervalo [a, j8]. 


Exemplo 7.8, Um caso particular bastante interessante e aquele em que a = -1/2 e p = 
1/2. Indicando essa v.a. por U, teremos 


f(u) = ( 1. se -1/2 ^ u ^ 1/2 
lo, caso contrario. 


N essa situagao temosque 

E (U ) =0, Var(U) =1/12 


e a f.d.a. e dada por 


Por exemplo, 


F y (u) = 


0, se u < -1/2 

u +1/2, se -1/2 « u < 1/2 
A, se u > 1/2. 


P(-1/4 U « 1 / 4 ) = Fu(1/4) - Fy(-1/4) = 1/2. 

Se quisessemos facilitar o nosso trabalho, poderiamos tabelar os valores da f.d.a 
para essa variavel U. Devido a simetria da area em relagao a x = 0, poderiamos cons- 
truir uma tabela indicando a fungao G(u), tal que 


G(u) = P(0 «£ U ^ u) 


para alguns valores de u (veja o Problema 30). 

Dada uma v.a. uniforme X qualquer, com parametros a e j8, podemos definir a v.a. 
U como 

^ _ p + a 

U = _ 2 ■ (7.16) 

p- a 

Segue-se que a transformagao (7.16) leva uma uniforme no intervalo [a, /?] numa 
uniforme no intervalo [-1/2, 1/2] e para dois numeros quaisquer c e d, com c < d, 


c- 


p + a 


d- 


p + a 


d- 


p + a 


p- a 


-<U 


P- a 


= F„ 


P- a 


p+a 


p- a 


P(c<X«d)=F(d)-F(c) =P 
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Artiffcios semelhantes a esse sao muito uteis na construgao de tabelas e programas 
para calculos de probabilidades referentes a famflias de modelos. 

Um outro caso importante e para a = 0e/3 = l. Um numero aleatorio e um valor 
gerado de uma v.a. com distribuigao uniforme no intervalo [0, 1], Veja Capitulo 9. 

7.4.2 O Modelo Normal 

Vamos introduzir, agora, um modelo fundamental em probabilidades e inferencia es- 
tatfstica. Suas origens remontam a Gauss em seus trabalhos sobre erros de observagoes 
astronomicas, por volta de 1810, donde o nome de distribuigao gaussiana para tal modelo. 

(a) Definigao. Dizemos que a v.a. X tern distribuigao normal com parametros /u e 
<t 2 , -oo </u < +oo e 0 < a 2 <oo, se sua densidade e dada por 

f(x; /u, a 2 ) = — 7 = e -<x - -oo < x < oo. (7.17) 

<rV27t 

Claramente, f(x; /u, a 2 ) > 0, para todo x e pode-se provar que £, f(x; ji, a 2 ) dx = 1. Veja o 
Problema 60. 

(b) Grafico. A Figura 7.11 ilustra uma particular curva normal, determinada por 
valores particulares de ^ e a 2 . 


Figura 7.11: f.d.p. de uma v.a. normal com media /x e desvio 
padrao a. 



(c) Momentos. Pode-se demonstrar que (veja o Problema 32): 

E (X) =ju, (7.18) 

Var(X) = a 2 . (7.19) 

A lem disso, f(x; ji\ a 2 ) -► 0, quando x -> ±oo, ^ - o e /u + o sao pontos de inflexao 
de f(x; n, a 2 ), x = /u e ponto de maximo de f(x; n, a 2 ), e o valor maximo e llcr'Un . A 
densidade f(x; /u, a 2 ) e simetrica em relagao a reta x = /u, isto e, 

f (m + x; n, a 2 ) =f [fi - x; n, a 2 ), 


para todo x real. 


(7.20) 
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Para simplificar a notagao, denotaremos a densidade da normal simplesmente por 
f(x) e escreveremos, simbolicamente, 

X ~ N(/i, a 2 ). 

Quando n = 0 e o 2 = 1, temos uma distribuigao padrao ou reduzida, ou brevemente 
N(0,1). Para essa a fungao densidade reduz-se a 

(j>( z) = -p= e _z2/2 -oo < z < oo. (7.21) 

V 2/r 

0 grafico da normal padrao esta na Figura 7.12. 


Figura 7.12: f.d.p. de uma v.a. normal pa¬ 
drao: Z ~ N(0,1). 



Se X ~ N(ju; <j 2 ), entao a v.a. definida por 

Z (7.22) 

c 

tera media zero e variancia 1 (prove esses fatos). 0 que nao e tao facil mostrar e que Z 
tambem tern distribuigao normal. Isso nao sera feito aqui. 

A transformagao (7.22) e fundamental para calcularmos probabilidades relativas a 
uma distribuigao normal qualquer. 

(d) F.d.a. A f.d.a. F (y) de uma v.a. normal X, com media /u e variancia <r 2 e obtida 
integrando-se (7.17) de -oo ate y, ou seja, 

F(y) =/I f(x; n, cr 2 )dx, y e !R. (7.23) 

A integral (7.23) corresponde a area, sob f(x), desde -oo ate y, como ilustra a 
Figura 7.13. 
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Figura 7.13: Representacao grafica de F(y) comoarea. 



No caso especifico da normal padrao, utilizamos a seguinte notagao, que e universal: 

O(y) = fl 0(z)dz = 1/V27T [I e’ z2/2 dz. (7.24) 

0 grafico de O(z) e ilustrado na Figura 7.14. 


Figura 7.14: f.d.a. da normal padrao. 


4>(Z)' 




0 

1 


Suponha, entao, que X ~ N (/u, a 2 ) e que queiramos calcular 

P (a < X < b) = / b f(x)dx, (7.25) 

•7a 


onde f(x) e dada por (7.17). Ver Figura 7.15. 
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Figura 7.15: llustra?ao grafica da P (a =s X =s b) 
para uma v.a. normal. 



A integral (7.25) nao pode ser calculada analiticamente, e portanto a probabilidade 
indicada so podera ser obtida, aproximadamente, por meio de integragao numerica. 
No entanto, para cada valor de /u e cada valor de < 7 , teriamos de obter P (a < X < b) para 
diversos valores de a e b. Essa tarefa e facilitada atraves do uso de (7.22), de sorte que 
somente e necessario construir uma tabela para a distribuigao normal padrao. 

Vejamos, entao, como obter probabilidades a partir da Tabela III. Essa tabela da 
as probabilidades sob uma curva normal padrao, que nada mais sao do que as cor- 
respondentes areas sob a curva. A Figura 7.16 ilustra a probabilidade fornecida pela 
tabela, a saber, 

P(0^Z ^z c ), 

onde Z ~ N (0,1). 

Figura 7.16: P (0 =s Z =s z ) fornecido pela 
Tabela III. 



Se tomarmos, por exemplo, z c = 1,73, segue-se que 

P (0 *£ Z 1,73) = 0,4582. 
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Calculemos mais algumas probabilidades (Figura 7.17): 

(a) P (-1,73 ssZs=0)=P(0s=Zss 1,73) = 0,4582, devido a simetria da curva. 

(b) P(Z => 1,73) = 0,5 - P(0 ^ Z « 1,73) = 0,5 - 0,4582 = 0,0418, pois 
P (Z 52 0) = 0,5 = P (Z 0). 

(c) P(Z < -1,73) = P (Z > 1,73) = 0,0418. 

(d) P(0,47 « Z ^ 1,73) = P(0 ^ Z ^ 1,73) - P(0 Z =£ 0,47) = 

= 0,4582 - 0,1808 = 0,2774. 


Figura 7.17: llustrapao do calculo de probabilidades para a N (0,1). 



Suponha, agora, que X seja uma v.a. N(^, a 2 ), com /u = 3 e a 2 = 16, e queiramos 
calcular P(2 =£ X 5). Utilizando (7.22), temos 

P (2 « X « 5) = P ( 2 ~ M ::: 111 ) 

\ a a <7 J 


= P 





1 

2 


Portanto, a probabilidade de que X esteja entre 2 e 5 e igual a probabilidade de que 
Z esteja entre -0,25 e 0,5 (Figura 7.18). Utilizando a Tabela III, vemos que 

P (-0,25 =£ Z *£ 0,5) = 0,0987 + 0,1915 = 0,2902, 

ou seja, 

P (2 X 5) = 0,2902. 


Figura 7.18: llustracao do calculo de P (2 =s X =s 5) para a v.a. N (3,16). 
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7.4 ALGUNS MODELOS PROBABILlSTICOS PARA VARIAVEIS ALEATORIAS CONTINUAS 


Exemplo 7.9. Os depositos efetuados no Banco da Ribeira durante o mes de janeiro 
sao distribuidos normalmente, com media de $10,000,00 e desvio padrao de $1,500,00. 
Urn deposito e selecionado ao acaso dentre todos os referentes ao mes em questao. 
Encontrar a probabilidade de que o deposito seja: 

(a) $10,000,00 ou menos; 

(b) pelo menos $10,000,00; 

(c) urn valor entre $12,000,00 e $15,000,00; 

(d) maior do que $20,000,00. 

Temos que /u = 10.000 e o = 1.500. Seja a v.a. X = deposito. 

(a) P (X « 10.000) = P ( Z *£ 10 'i° 5 oo 10,000 ) = P(Z ^ 0) = 0,5. 


(b) P (X s* 10.000) =P(Z s* 0) = 0,5. 


(c) P (12.000 < X < 15.000) = P 


12.000 - 10.000 ^ 7 ^ 15.000 - 10.000 
1.500 1.500 


= P(4/3 < Z < 10/3) = P(l,33 < Z < 3,33) = 0,09133. 


(d) P (X > 20.000) = P (Z > 20,0 °i 500° 00 0 ) = P(Z > 6 ’ 67) “ °- 


7.4.3 O Modelo Exponential 

Outra distribuigao importante e que tern aplicagoes em confiabilidade de sistemas, 
assunto de que ja tratamos brevemente no Capitulo 5, e a exponencial. 

(a) Definicao. A v.a. T tern distribuigao exponencial com parametro f5 > 0 se sua 
f.d.p. tern a forma 


f(t; j8) = 


P ’ 

0 , 


se t > 0 
se t < 0. 


Escreveremos, brevemente, 


(7.26) 


T ~ Exp(j8). 

(b) Grafico. O grafico de f(t; j8) = f(t) esta ilustrado na Figura 7.8 (b), com (5 = 1. 

(c) Momentos. Usando integragao por partes, pode-se demonstrar que (veja o 
Problema 41): 


E(T) =P, 
Var(T) = /3 2 . 


(7.27) 

(7.28) 
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Exemplo 7.10 0 tempo de vida (em horas) de um transistor pode ser considerado 
uma v.a com distribuigao exponencial com [5 = 500. Segue-se que a vida media do 
transistor e E(T) = 500 horas e a probabilidade de que ele dure mais do que a media e 

P (T > 500) =£ f(t)dt = 1/500 f m e- t/500 dt 

= 1/500 [-500e t/500 ] 5 00 = e- 1 = 0,3678. 


(d) F.d.a. Usando a definigao (7.10), obtemos 


F (t) = 


0, se t < 0 
1 - e- t//? , se t =s 0. 


(7.29) 


O grafico de F (t) esta na Figura 7.8 (a), com /} = 1. 

7.5 Aproximaccio Normal a Binomial 

Suponha que a v.a. Y tenha uma distribuigao binomial com parametros n = 10 e 
p = 1/2 e queiramos calcular P(Y > 7). Embora seja uma v.a. discreta, vimos no Capi- 
tulo 2 que e possfvel representa-la por meio de um histograma, como na Figura 7.19. 
Vemos que P(Y = 7) e igual a area do retangulo de base unitaria e altura igual a P(Y = 7), 
similarmente para P(Y =8) etc. Logo, P(Y > 7) e igual a soma das areas dos retangulos 
hachurados na Figura 7.19. 


Figura 7.19: (P(Y > 7) para Y~ b(10,1/2). 









0123456789 10 


A ideia e aproximar tal area pela area sob uma curva normal, a direita de 6,5. Qual 
curva normal? Parece razoavel considerar aquela normal de media 

^ = np=10Xy=5 


e variancia 


a 2 = np(l - p) = 10 x y x y = 2,5. 


Veja a Figura 7.20. 
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7.5 APROXIMACAO NORMAL A BINOMIAL 


Figura 7.20: Aproximacao de P (Y 3= 7) pela 
area sob a N (5; 2,5). 



Chamando X tal variavel, com distribuigao normal, 

P (Y > 7) — P (X > 6,5) = P ( =5 6,5 ~ ** ) 

\ a o / 

P fz > 6 ’^_ 5 j = P (Z > 0,94) = 0,174, 

onde Z e, como sempre, N(0, 1). Utilizando a Tabela I, vemos que a probabilidade 
verdadeira e 0,172. 

Vamos calcular agora P (3 < Y «= 6) = P (Y = 4) + P (Y = 5) + P (Y =6). Vemos, 
atraves da Figura 7.21, que a aproximagao a ser feita deve ser 

P(3<Y S 6)-P(3,5<X S 6,5)=P(«_5 «_6) 

= P (-0,94 « Z ^ 0,94) = 0,653, 
ao passo que a probabilidade verdadeira e 0,656. 


Figura 7.21 Aproximagao de P (3 < Y =s 6). 



A justificative formal de tal aproximagao e dada pelo chamado Teorema Limite Cen¬ 
tral, que sera visto no Capitulo 10. A aproximagao e boa quando np > 5 e n(l - p) > 5. 




emas 


13. Atemperatura T de destilagao do petroleo e crucial na determinagao da qualidade final 
do produto. Suponha queT seja considerada uma v.a. com distribuigao uniforme 
no intervalo (150, 300). Suponha que o custo para produzir urn galao de petroleo 
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seja C 1 reais. Se o oleo for destilado a uma temperatura inferior a 200°, o produto obtido 
e vendido a C 2 reais; se a temperatura for superior a 200°, o produto e vendido a C 3 reais. 

(a) Fazer o grafico da f.d.p. de T. 

(b) Qual o lucro medio por galao? 


14. Se X ~ N (10, 4), calcular: 
(a) P (8 < X < 10), 


(c) P (X > 10), 

(d) P (X <8ouX > 11). 


(b) P (9 =£ X =£ 12), 


15 . Para X ~ N(100, 100), calcule: 

(a) P(X < 115), 

(b) P (X & 80), 

(c) P(IX - 1001 « 10), 

(d) o valor a, tal que P (100 - a =£ X 100 + a) = 0,95. 

16 . Para a v.a. X ~ N (jU, a 2 ), encontre: 

(a) P(X «A7+2ct), 

(b) POX-filial 

(c) o numero a tal que P (ju - ac =s X =£ +ac) =0,99, 

(d) o numero b tal que P (X > b) = 0,90. 

17. As alturas de 10.000 alunos de um colegio tern distribuigao aproximadamente normal, 
com media 170 cm e desvio padrao 5 cm. 

(a) Qual o numero esperado de alunos com altura superior a 165 cm? 

(b) Qual o intervalo simetrico em torno da media que contera 75% das alturas 
dos alunos? 

18. As vendas de determinado produto tern distribuigao aproximadamente normal, com me¬ 
dia 500 unidades e desvio padrao 50 unidades. Se a empresa decide fabricar 600 unida- 

des no mes em estudo, qual e a probabilidade de que nao possa atender a todos os 

pedidos desse mes, por estar com a produgao esgotada? 

19. Suponha que as amplitudes de vida de dois aparelhos eletricos, D 3 e D 2 , tenham distribui- 
goes N (42, 36) e N (45, 9), respectivamente. Se os aparelhos sao feitos para ser usados por 
um periodo de 45 horas, qual aparelho deve ser preferido? E se for por um periodo de 


49 horas? 


20. O diametro X de rolamentos esfericos produzidos por uma fabrica tern distribuigao N (0,6140; 
(0,0025) 2 ). O lucro T de cada rolamento depende de seu diametro. Assim, 

T =0,10, se o rolamento for bom (0,610 < X < 0,618); 

T = 0,05, se o rolamento for recuperavel (0,608 < X < 0,610) ou (0,618 < X < 0,620); 

T = - 0,10, se o rolamento for defeituoso (X < 0,608 ou X > 0,620). 

Calcule: 

(a) as probabilidades de que os rolamentos sejam bons, recuperaveis e defeituosos. 

(b) E(T). 
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21. Suponha que um mecanismo eletronico tenha um tempo de vida X (em 1.000 horas) que 
possa ser considerado uma v.a. contfnua com f.d.p. f(x) = e~ x , X > 0. Suponha que o 
custo de fabricagao de um item seja 2,00 reais e o prego de venda seja 5,00 reais. 

O fabricante garante total devolugao se X « 0,9. Qual o lucro esperado por item? 

22. Seja Y com distribuigao binomial de parametros n = 10 e p =0,4. Determine a aproxima- 
gao normal para: 

(a) P (3 < Y < 8), (b) P(Y^7), (c)P(Y<5). 

23. De um lote de produtos manufaturados, extratmos 100 itens ao acaso; se 10% dos itens 
do lote sao defeituosos, calcule a probabilidade de 12 itens serem defeituosos. Use tam- 
bem a aproximagao normal. 

24. Aconfiabilidade de um mecanismo eletronico e a probabilidade de que ele funcione sob as 
condigoes para as quais foi planejado. Uma amostra de 1.000 desses itens e escolhida ao 
acaso e os itens sao testados, obtendo-se 30 defeituosos. Calcule a probabilidade de se 
obter pelo menos 30 itens defeituosos, supondo que a confiabilidade de cada item e 0,95. 

7.6 Funcoes de Variaveis Confinuas 

Vimos, no Capftulo 6, como obter a distribuigao de uma v.a. Y = h(X), se conhecer- 
mos a distribuigao da v.a. discreta X. Vejamos, agora, o caso em que X e contfnua. 
Suponhamos, primeiramente, que a fungao h seja estritamente monotonica, crescente 
ou decrescente. Neste caso, a inversa h 1 estara univocamente determinada e podemos 
obter x = IrMy), para valores x e y das v.a. X e Y, respectivamente. Observando a Figura 
7.22, vemos que, se a densidade de X, f(x), digamos, for positiva no intervalo a < x < 
b, entao a densidade de Y sera positiva para h(a) < y < h(b), se h for crescente, e para 
h(b) < y < h(a), se h for decrescente. 


Figura 7.22: Fungao de uma v.a. 


y 

yf 



/ y = h(x) 




- h(a) 

h(b) - 



h(a) - 

h(b) - 


z' 

a b x a 

b * 

M 

n crescente (b) h 

decrescente 


Exemplo 7.11. Suponha X com a densidade do Exemplo 7.2 e considere Y = 3X + 4. 
Aqui, y = h(x) = 3x + 4, que e crescente (Figura 7.23 (a)). 
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Figura 7.23: Exemplos de fun^oes de v.a. (a) Exemplo 7.11 (b) Exemplo 7.12. 



Denotando a densidade de Y por g(y), e como f(x) > 0 para 0 < x < 1, g(y) > 0 
para 4 < y < 7. 

Notemos que se podem obter probabilidades relativas a Y a partir da densidade de 
X. Por exemplo, 

P (Y > 1) = P (3X + 4 > 1) = P (X > -1) = 1. 

Vejamos como se pode obter g(y). Denotemos por G(y) a fungao de distribuigao 
acumulada de Y. Da segao 7.3, sabemos que G'(y) = g(y), para todo valor de y para o 
qual G for derivavel. Entao, temos 

G (y) = P (Y y) = P (3X + 4 y) = P (x = F 


onde estamos denotando por F(■) a fungao de distribuigao acumulada de X. Usando a 
regra da cadeia para derivadas, temos 


G‘(y) =F 


V- 4 
3 


1 

3 


1 

3 



do que decorre 



(y - 4), 
9 


se 4 < y < 7 
caso contrario. 


Exemplo 7.12. Suponha, agora, que X tenha densidade f(x) = 3x 2 /2, - 1 < x < 1 e que 
Y = e- x . Segue-se que h(x) = e^ x e uma fungao decrescente ex = -My) (Figura 7.23 
(b)). Entao, 


G (y) = P (Y *s y) = P (e’ x y) = P (X s* - Yb(y)) 
= 1- P(X ^ -vfh(y)) =1 - F(-Yb(y)), 
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onde novamente F denota a f.d.a. de X. Derivando, obtemos a f.d.p. de Y, 

g(y) = (^h(y)) 2 , e- 1 <y <e. 

0 seguinte resultado generaliza esses dois exemplos. 

Teorema 7.1 Se X for uma v.a. contfnua, com densidade f(x) > 0, a < x < b, entao 
Y = h(X) tem densidade 


g(y) =f(h- 1 (y)) 


dx 

dy 


(7.30) 


supondo que h seja monotonica, derivavel para todo x. Se h for crescente, g(y) > 
h(a) < y < h(b) e, se h for decrescente, g(y) > 0, h(b) < y < h(a). 


0 , 


Prova, Basta notar que G(y) = P(Y s= y) = P(h(X) y) e que essa probabilidade e igual 
a P(X « h My)) = F(h’My)), se h for crescente, e igual a 1 - F(h My)), se h for decres¬ 
cente. Derivando G(y) obtemos o resultado, notando que a derivada (h My)) 1 = dx/dy > 0 
se h for crescente, e negativa se h for decrescente. 

Suponha, agora, que h nao seja monotonica. Urn caso de interesse que sera usado 
mais tarde e Y = h(X) = X 2 (Figura 7.24). Temos 

G (y) = P (Y ss y) = P (X 2 =£ y) =P(-Vy « X ^ Vy) 

= F(Vy) - F (-V~y), 

e derivando obtemos a densidade de Y, 

g(y) = ^ [ f (Vy) +f(-Vy)L (7.31) 


onde f e a densidade de X. 

Se f(x) = 1, 0 < x < 1 (X e uniforme no intervalo [0, 1]), entao 

9(y) = 277' 0 <y < 1 


Figura 7.24: llustracao de Y =h(X) =X 2 . 
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jTn^rmTT^H _ 

25 . Considere a v.a. X do Problema 2 e Y =X +5. 

(a) Calcule P (Y ^ 5,5). 

(b) Obtenha a densidade de Y. 

(c) Obtenha a densidade deZ =2X. 

26. Suponha que a v.a. X tenha a densidade do Problema 8. Se Y = 2X - 3/5, obter a 
densidade de Y. Calcule E (Y) e Var(Y). 

27 . Suponha X ~ U [- 1 , 1 ]. Calcule a densidade de Y =X 2 e de W =1X1. 

7.7 Outros Modelos Importantes 

Nesta segao vamos introduzir alguns modelos para v.a. contfnuas que serao bas- 
tante utilizados na terceira parte deste livro. juntamente com o modelo normal, esses 
modelos sao uteis para as v.a. de interesse pratico, que na maioria dos casos assumem 
valores positivos e tendem a ter distributes assimetricas a direita. 

7.7.1 A Distribuigao Gama 

Uma extensao do modelo exponencial e estudado a seguir. 

Definigao A v.a. continua X, assumindo valores positivos, tern uma distribuigao gama 
com parametros a > 0 e ft > 0, se sua f.d.p. for dada por 


1 


x a-l e -x/£ X > 0, 

x < 0. 


f(x; a, p) =< T(a)P a 

0 , 


(7.32) 


Em (7.32), r(a) e a fungao gama, importante em muitas areas da Matematica, 
dada por 



(7.33) 


Nao e diffcil ver que r(a) = (a - 1) r(a - 1), se a = n for urn inteiro positivo, 
r(n) = (n - 1)1 e que r(l) = 1, r( 1/2) = Vtt. Veja o Problema 45. 

A Figura 7.25 ilustra a densidade (7.32) para a = 3 e j8 = 1. Sea = l obtemos a 
distribuigao exponencial (7.26). M uitos casos de interesse tern a inteiro positivo. 
Usaremos a notagao 


X ~ Gama(a, /3) 


para designar uma v.a. com a distribuigao dada por (7.32). 
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Figura 7.25: Grafico da f.d.p. de uma distribuiqao gama, a= 3, 

P= 1. 



Pode-se demonstrar que: 

E (X) = a/3, Var(X) = a/3 2 . (7.34) 

7.7.2 A Distribuicao Qui-Quadrado 

Um caso especial importante do modelo gama e obtido fazendo-se a = v/2 e /J = 2, 
com v > 0 inteiro. 


Definipao Uma v.a. contfnua Y, com valores positivos, tern uma distribuigao qui-qua- 
drado com v graus de liberdade (denotada X 2 (v)), se sua densidade for dada por 


f(y; v) =< 


r(v/2)2* 

0 , 


yv/2 - lg-y/2, y > 0 

y < 0. 


(7.35) 


A Figura 7.26 ilustra os graficos de (7.35) para v = 1, 2, 3. Segue-se de (7.34) que 

E (Y) = v, Var(Y) = 2v. (7.36) 

A distribuigao qui-quadrado tern muitas aplicagoes em Estatistica e, como no caso 
da normal, existem tabelas para obter probabilidades. A Tabela IV, fornece os valores 
de y 0 tais que P(Y > y 0 ) = p, para alguns valores de p e de v. Ver Figura 7.27. 


Figura 7.26: Graficos da distribuicao qui-quadrado c 2 (n). 


f(y) ■ 

f(y) ■ 

t(y) 



y 

(a) v = 1 

y 

(b) v = 2 

y 

(c) v = 3 
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Figum 7.27 Valores tabelados da distribui?ao X 2 (v). 



Exemplo 7.13. Usando a Tabela IV, para v = 10, observe que P(Y > 2,558) = 0,99, ao 
passo que P(Y > 18,307) = 0,05. 

Para v > 30 podemos usar uma aproximagao normal a distribuigao qui-quadrado. 
Especificamente, temos o seguinte resultado: se Y tiver distribuigao qui-quadrado com 
v graus de liberdade, entao a v.a. 

Z = V~2Y~- ^2v^~l ~ N(0,1). 

Por exemplo, consultando a Tabela IV, temos que, se v = 30, 

P (Y > 40,256) = 0,10, 

enquanto que, usando a formula acima, temos que 

z = V 2 x 40,256 - V~59 = 1,292 
e P(Z > 1,292) = 0,099, que resulta ser uma boa aproximagao. 

Exemplo 7.14. Considere Z ~ N(0,1) e considere a v.a. Y = Z 2 . De (7.31) temos que a 
densidade de Y e dada por 

g(y) = i [0(Vy) + 0(-Vy)], y > 0, 

onde por <p(z) indicamos a densidade da N(0,1). Resulta 

g(y) = t=— y _1/2 e- y/2 , 

V 2 k 

e comparando com (7.35) vemos que Y ~ X 2 [l). Temos, aqui, urn resultado importante: 

O quadrado de uma v.a. com distribuigao normal padrao e uma v.a. com distribuigao X 2 (l). 

De urn modo mais geral, uma v.a. x 2 (v) pode ser vista como a soma de v normais 
padroes ao quadrado, independentes. 
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7.7.3 A Distribuicao t de Student 

A distribuigao t de Student e importante no que se refere a inferences sobre medias 
populacionais, topico a ser tratado nos Capftulos 12 e 13. A obtengao da densidade 
esta contida no teorema abaixo. 


Teorema 7.1. Seja Z uma v.a. N(0,1) e Y uma v.a. X 2 [v), com Z e Y independentes. 
Entao, a v.a. 


t = 


Z 

VyT V 


(7.37) 


tem densidade dada por 


f(t; v) = H(v + l)/2) (i +tW)~ |v + 1)/2 , - oo < t < oo. (7.38) 
r(v/2)V 7TV 

Diremos que tal variavel tem uma distribuigao t de Student com v graus de liber- 
dade e a indicaremos por t(v). Pode-se provar que 

E (t) = 0, Var(t) = v > 2, (7.39) 

v - 2 

e verificar que o grafico da densidade de t aproxima-se bastante de uma N(0,1) quan- 
do v e grande. Veja a Figura 7.28. 


Figura 7.28: A distribuicao t de Student e a distri¬ 
buicao normal padrao. 



Como essa distribuigao e bastante utilizada na pratica, existem tabelas fornecendo 
probabilidades relativas a ela. A Tabela V fornece os valores de t. tais que 

P(-t c < t(v) < t c ) = 1 - p, (7.40) 

para alguns valores de p e de v. 

0 nome Student vem do pseudonimo usado pelo estatistico ingles W. S. Gosset, 
que introduziu essa distribuigao no infcio do seculo passado. 
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Exemplo 7.15. Se v = 6, entao, usando a Tabela V, P (-1,943 < t(6) < 1,943) = 0,90, ao 
passo que P(t(6) > 2,447) = 0,025. Observe que, nessa tabela, ha uma linha com v = °°, que 
corresponde a usar os valores da N(0,1). Para n > 120 essa aproximagao e muito boa. 

7.7.4 A Distribuicao Fde Snedecor 

Vamos considerar agora uma v.a. definida como o quociente de duas variaveis 
com distribuigao qui-quadrado. 

O seguinte teorema, que nao sera demonstrado, resume o que nos vai ser util. 


Teorema 7.2. Sejam U e V duas v.a. independentes, cada uma com distri buigao qui- 
quadrado, com Vj e v 2 graus de liberdade, respectivamente. Entao, a v.a. 


W = 


U/V: 

V/v 2 


(7.41) 


tern densidade dada por 


g(w; v 1( v 2 ) 


vi/2 


w 


(vi - 2)12 


r((v!+v 2 )/2) /Vj_ 
n v 1 /2)r(v 2 /2) \ v 2 ) (1 + VjW/v 2 )* Vl +V2 * /2 


w > 0. 


(7.42) 


Diremos que W tern distribuigao F de Snedecor, com v 2 e v 2 graus de liberdade, e 
usaremos a notagao W ~ F(v 1( v 2 ). Pode-se mostrar que 


E(W) = —e Var(W) = 


v 2 - 2 


- 2) 2 (v 2 - 4) 


(7.43) 


O grafico tfpico de uma v.a. com distribuigao F esta na Figura 7.29. Na Tabela VI 
sao dados os pontos f 0 tais que 


P {F (v 1( v 2 ) > f 0 } = a, 


para a = 0,05, a = 0,025 e alguns valores de v 2 e v 2 . Para encontrar os valores inferio- 
res, usa-se a identidade 


F (v 1( v 2 ) = 1/F (v 2 , Vj). 

Figura 7.29; Grafico de distribuigao F. 



(7.44) 
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Exemplo 7.16. Considere, por exemplo, W — F (5, 7). Consultando a Tabela VI, 
P (F > 3,97) = 0,05 ou, entao, P(F *s 3 , 97 ) = 0,95. Digamos, agora, que desejamos 
encontrar 0 valor f 0 tal que P(F < f 0 ) = 0 ,05. Da igualdade (7.44) temos 

0,05 = P {F (5,7) < f 0 } = P {1/F (7,5) < f 0 } = P {F (7,5) > l/f 0 }, 

e procurando na Tabela VI, para F (7,5), obtemos l/f 0 = 4,88 e, portanto, f 0 = 0,205. 

Na segao de Problemas e Complementos apresentamos algumas outras distribui- 
goes de interesse, como a log-normal, Pareto, Weibull e beta. 

Na Tabela 7.2 mostramos os principals modelos para v.a. continuas, incluindo: a 
densidade, 0 domfnio dos valores, os parametros, a media e a variancia. 


Tabela 7.2: Modelos para variaveis continuas. 


Modelo 

f(x) 

Parametros 

E (X ), Var(X ) 

Uniforme 

l/(/3- a), a< x < p 

a, P 

[a + p)l2, (P- a) 2 112 

Exponencial 

1/p e-w, t > 0 

P 

P, P 2 

Normal 

crS «p{(/))-”<»<“ 

n, O 

/t, (7 2 

Gama 

p~ a / r(a) x"- 1 e~ x/li , x > 0 

P > 0, a > 0 

ap, ap 2 

Qui-quadrado 

O-v/2 

r(v/ 2 ) y>° 

V 

v, 2v 

t-Studenf 

niv+iV2) / 1 + t>y. 

r(v/2)Vjrv \ v / 

V 

0, v/(v- 2) 

F-Snedecor 

r( (Vl + V2) ") « 

\ 2 j/vAf w 2 w ^ 0 

Vi- v 2 

v 2 2v 2 1 (v 1 + v 2 - 2) 

r (| r (|U (l+ ^' 

Vi-2’ Vi(v 2 - 2) 2 ( v 2 - 4) 


7.8 Quantis 

No Capftulo 6 definimos o p-quantil Q(p) como o valor da v.a. discreta X satisfa- 
zendo as duas desigualdades de (6.26). 

No caso de uma v.a. contfnua X, essa definigao torna-se mais simples. Se F(x) 
designar a f.d.a. de X, temos que as desigualdades em (6.26) ficam: 

P(X Q( P )) = f(Q( p)) 5= p 


(7.45) 
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e 


P(X > Q(p)) = 1 - P(X < Q(p)) = 1 - P(X Q(p)) = 1 - F(Q(p)) > 1 - p. 

(7.46) 

Mas (7.46) pode ser reescrita como 

F (Q(p)) p. (7.47) 

Portanto, de (7.45) e (7.47) chegamos a conclusao de que o p-quantil deve satisfazer 

F(Q(p))=p. (7.48) 

Graficamente, temos a situagao ilustrada na Figura (7.30). Ou seja, para obter 
Q(p), marcamos p no eixo das ordenadas, consideramos a reta horizontal pelo ponto 
(0, p) ate encontrar a curva de F(x) e baixamos uma reta vertical ate encontrar Q(p) 
no eixo das abscissas. Analiticamente, temos de resolver a equagao (7.48). Vejamos 
alguns exemplos. 


Figura 7.30: Defini?ao de Q(p) (a) f.d.a. (b) f.d.p. 


F(x) ■ 

1 

f(x) ' 

P 

P - 


61 

Q(p) X Q(p) x 

(a) (b) 


Exemplo 7.17. Se Z ~ N(0, 1), utiIizando a Tabela III encontramos facilmente que 
0(0, 5) =Q 2 = 0, 

0(0, 25) =Q 1 =-0,675, 

0(0, 30) = -0,52, 

0(0,75) = Q 3 = 0,675. 

Exemplo 7.18. Suponha que Y ~ Exp(2). Se quisermos calcular a mediana, Q 2 , tere- 
mos de resolver 

l h f(y)dy = 0,5, 
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ou seja, 


Obtemos 


1/2 f Ql e-* /2 dy = 0,5. 

y 0 

1 - e- Q 2 /2 = 0,5, 


do que temos, finalmente, Q 2 = -2/n(0,5) = 1,386. 


7.9 Exemplos Computacionais 

Nesta segao final, vamos dar alguns exemplos de como obter probabilidades acumula- 
das para a normal e exponencial, usando o pacote M initab. Isso tambem pode ser feito 
com outros pacotes ou planilhas, bem como considerar outras distribuigoes continuas. 

Considere a v.a. continua X, com f.d.a. F (x) = P(X «= x). 0 problema e, dado x, 
calcular F(x), ou dado F(x), calcular x. 


Exemplo 7.19 Suponha X ~ N(10, 25). Para obter F(x), para x = 8,65, usamos os 
comandos CDF e NORMAL do Minitab. Por outro lado, se F(x) = 0,8269, entao obte- 
remos x usando os comandos INVCDF e NORMAL. Veja o Quadra 7.1. 


Quadro 7.1 Obtencao de X e F (x) para a Normal. Minitab. 


MTB > CDF 8.65; 

MTB > INVCDF 0.8269; 

SUBC > NORMAL 10,25. 

SUBC > NORMAL 10,25. 

Cumulative Distribution Function 

Inverse Cumulative Distribution Function 

Normal with mean = 10.0000 and standard 

Normal with mean = 10.0000 and standard 

deviation = 25.0000 

deviation = 25.0000 

x P(X < = x) 

P(X < = x) x 

8.6500 0.4785 

0.8269 33.5496 


Exemplo 7.20. O Quadra 7.2 mostra calculos similares para distribuigao exponencial, 
com media 0,5, ou seja, parametro /? = 2. 


Quadro 7.2 Obtenpao de x e F (x) para a Exponencial. Minitab. 


MTB > CDF 0.85; 

MTB > INVCDF 0.345; 

SUBC> EXPONENCIAL 0.5. 

SUBC> EXPONENCIAL 0.5. 

Cumulative Distribution Function 

Inverse Cumulative Distribution Function 

Exponential with mean = 0.500000 

Exponential with mean = 0.500000 

x P(X < = x) 

P(X < = x) x 

0.8500 0.8173 

0.3450 0.2116 


Exemplo 7.21. Podemos, tambem, construir o grafico de uma f.d.a, por meio de co¬ 
mandos do M initab. Suponha que Z ~ N(0,1). Como os valores de Z estao concentra- 
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dos no intervalo [-4, 4], podemos considerar um vetor de valores z = [-4,0; -3,9; 
-3,8; ...; 3,8; 3,9; 4,0] e obter os valores da f.d.a. com o comando CDF. Depois, pedir 
para plotar os pares (z;, F(z,)). 0 grafico esta na Figura 7.31. 


Figura 7.31: Grafico da f.d.a. da N(0,1). Minitab. 



7.10 Problemas e Complementos 


28. Numa determinada localidade, a distribuigao de renda (em reais) e uma v.a. Xcom f.d.p. 


f(x)= J 


r JLx + —, 0«x=s2 

10 10 

2 < x=s 6 

40 20 


0 , 


x< 0 ou x> 6. 


(a) Qual a renda media nessa localidade? 

(b) Escolhida uma pessoa ao acaso, qual a probabilidade de sua renda ser superior a 

$3,000,00? 

(c) Qual a mediana da variavel? 

29. Se Xtiverdistribuigao uniforme com parametros a e /3, mostre que: 

(a) E(X)=^±1. 

(b) Var(X) = (/?- a) 2 /12. 


(c) F(x) = 


0, x< a 
x- a 


,a^x=s/3 


J3- a 
1, x > p. 


30. Complete a tabela abaixo, que corresponde a alguns valores da fungao 

G(u)=P(0s:U=£U), 

definida na seqao 7.4.1, com U uma v.a. uniforme no intervalo (-1/2, 1/2). 
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Probabilidades p, tais que p = P(0 =s U =£ u) 



31. Dada a v.a. X, uniforme erm (5,10), calcule as probabilidades abaixo, usando a tabela do 
problema anterior. 

(a) P(X < 7) (c) P(X >8,5) 

(b) P (8 < X < 9) (d) P (| X - 7,51 > 2) 

32. Se X ~ N(|t, a 2 ), calcular E (X ) e Var(X ). 

[Sugestao: Fazendo a transformagao de variaveis X =jU +<rt, obtemos que E (X ) = 

^ / 6 t/2 dt + JL_ / te 1,2 dt. A primeira integral resulta /u (por que?) e a segunda 

d2n J -°° V2 nJ-oo 

anula-se, pois o integrando e uma fungao impar. Para obter a variancia, obtenha E (X 2 ) 
por integragao por partes.] 

33. As notas de Estatfstica Economica dos alunos de determinada universidade distribuem-se 
de acordo com uma distribuigao normal, com media 6,4 e desvio padrao 0,8. 
O professoratribui grausA, B eC da seguinteforma: 


Nota 

Grau 

x < 5 

C 

5 x < 7,5 

B 

7,5 =s x s; 10 

A 


Numa classe de 80 alunos, qual o numero esperado de alunos com grau A ? E com grau 
B? E C? 

34. O peso bruto de latas de conserva e uma v.a. normal, com media 1.000 g e desvio 
padrao 20 g. 

(a) Qual a probabilidade de uma lata pesar menos de 980 g? 

(b) Qual a probabilidade de uma lata pesar mais de 1.010 g? 

35. Adistribuigao dos pesos de coelhos criados numa granja pode muito bem ser representada 
por uma distribuigao normal, com media de 5 kg e desvio padrao de 0,8 kg. Urn abatedouro 
comprara 5.000 coelhos e pretende classifica-los de acordo com o peso, do seguinte modo: 
20% dos leves como pequenos, os 55% seguintes como medios, os 15% seguintes como 
grandes e os 10% mais pesados como extras. Quais os limites de peso para cada classe? 
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36. Uma enchedora automatica de garrafas de refrigerantes esta regulada para que o volume 
medio de liquido em cada garrafa seja de 1.000 cm 3 e o desvio padrao de 10 cm 3 . Pode-se 
admitir que a variavel volume seja normal. 

(a) Qual e a porcentagem de garrafas em que o volume de liquido e menor que 990 cm 3 ? 

(b) Qual e a porcentagem das garrafas em que o volume liquido nao se desvia da media 
em mais que dois desvios padroes? 

(c) O que acontecera com a porcentagem do item (b) se a maquina for regulada de 
forma que a media seja 1.200 cm 3 e o desvio padrao 20 cm 3 ? 

37. O diametro de certo tipo de anel industrial e uma v.a. com distribuigao normal, de media 
0,10 cm e desvio padrao 0,02 cm. Se o diametro de um anel diferir da media em mais que 
0,03 cm, ele e vendido por $5,00; caso contrario, e vendido por $10,00. Qual o prego 
medio de venda de cada anel? 

38. Uma empresa produztelevisores e garante a restituigao da quantia paga se qualquer televi¬ 
sor apresentar algum defeito grave no prazo de seis meses. Ela produztelevisores do tipo A 
(comum) e do tipo B (luxo), com lucros respectivos de $1,000,00 e $2,000,00, caso nao 
haja restituigao, e com prejuizos de $3,000,00 e $8,000,00, se houver restituigao. Suponha 
que o tempo para a ocorrencia de algum defeito grave seja, em ambos os casos, uma v.a. 
com distribuigao normal, respectivamente, com medias 9 meses e 12 meses, e variancias 4 
meses 2 e 9 meses 2 . Se tivesse de planejar uma estrategia de marketing para a empresa, voce 
incentivaria as vendas dos aparelhos do tipo A ou do tipo B ? 

39. Determine as medias das v.a. X, Y eZ: 

(a) X uniforme em (1, 3), Y = 3X + 4, Z = e x . 

(b) X tern f.d.p. f (x) = e- x , x>0, Y = X 2 , Z= 3/(X +1) 2 . 

40. Suponha queX tenha distribuigao uniforme em [-a, 3a]. Determine a media e a variancia 
de X. 

41. SeT tiver distribuigao exponencial com parametro p, mostreque: 

(a) E(T )=p. (b) Var(T)=/l 2 . 

42. Os dados a seguir representam uma amostra de firmas de determinado ramo de atividade 
de uma regiao. Foram observadas duas variaveis: faturamento e numero de empregados. 


N- de empregados 

N- de empresas 

01-20 

35 

201- 50 

75 

50k 100 

45 

100 k 200 

30 

200 k 400 

15 

400 k 800 

8 

>800 

2 

Total 

210 


Faturamento 

N s de empresas 

Ok 10 

18 

10k 50 

52 

50k 100 

30 

100 k 200 

26 

200 k 400 

24 

400 k 800 

20 

800 k 1600 

16 

1600 k 3200 

14 

3200 k 6400 

6 

>6400 

4 

Total 

210 
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(a) Calcule a media e a variancia para cada variavel. 

(b) Supondo normalidade para cada uma dessas variaveis, com parametros estimados 
pela amostra, calcule os valores esperados para cada intervalo de classe e compare 
com o observado. 

43. Suponha que a v.a. X tenha densidade f(x) = 1, para 0 <x < 1 e igual a zero no comple¬ 
menter. Faga Y =X 2 . 

(a) Determine F y (y) =P(Y ^ y), y real. 

(b) Determine a f.d.p. deY. 

(c) Calcule E (X 2 ), utilizando a f.d.p. de X. 

(d) Calcule E (Y), utilizando a f.d.p. de Y, e compare com (c). 

44. Dada a v.a. 

2 _ X ~ Hx 

determine a media e a variancia de Z, sabendo-se que a f.d.p. de X e 

f(x) =e‘ x , X > 0. 

45. (a) Prove que, se a for inteiro positivo, T(a) =(a- 1)!. 

(b) Prove que T[a + 1) = aT{a). 

(c) Calcule r(l) e r(l/2). 

(d) Prove que a media e a variancia de uma v.a. X com distribuigao gama (densidade 
em (7.32)) sao, respectivamente, ape ap 1 . 

46. Distribuigao de Pareto. Esta e uma distribuigao frequentemente usada em Economia, em 
conexao com problemas de distribuigao de renda. 

Dizemos que a v.a. X tern distribuigao de Pareto com parametros a > 0, b > 0 se sua f.d.p. 
for dada por 

f ( x ) alb (b/x)“ + \ x^b 
10, x < b. 

Aqui, b pode representor algum nfvel mtnimo de renda, X e o nfvel de renda e f(x) Ax da a 
proporgao de indivfduos com renda entre X e X + Ax. O grafico de f(x) esta na figura abaixo. 
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(a) Prove que/ f(x)dx=l. 

(b) Mostre que, para a > 1, E (X) = —e para a > 2, Var(X) = 

a- 1 


«b 2 

(a- 1 ) 2 (a- 2) 


47. Distribuigao lognormal. Outra distribuigao usada quando se tem valores positivos e a 
distribuigao lognormal. A v.a. X tem distribuigao lognormal, com parametros jj. e a 2 , 
-oo <iu < 00 ' ( 7 2 > 0, se Y = TtlX fiver distribuigao normal com media fi e variancia c 2 . 
A f.d.p. de X tem a forma 


1 


f(x)H 


0 , 



sex > 0 
sex ^ 0. 


O grafico de f(x) esta na figura abaixo. 



(a) Prove que E (X )= e /, + a ‘ /2 . 

(b) Se E (X) =m, prove que Var(X) =m 2 (e <j! - 1). 

48. Suponha que X tenha distribuigao exponencial com parametro /3. Prove que 

P ( (X>x) X) - p ( x>t )- v ^ x ^ Q ' 

Essa propriedade nos diz que a distribuigao exponencial nao tem memoria. Por exemplo, se 
X for a vida de um componente eletronico, a relagao acima diz que, se o componente durou 
ateo instanteX, a probabilidadedeele naofalharaposo intervalo t+Xea mesma de nao 
falhar apos o instante t. Nesse sentido, X "esquece" a sua idade, e a eventual falha do 
componente nao resulta de uma deterioragao gradual e sim de alguma falha repentina. 

49. Se X for uma v.a. continua, com f.d.p. f (x), e se Y =g(X) for uma fungao de X, entao Y sera 
uma v.a com 


E(Y)=£g(x)f(x)dx. 


Suponha que X tenha densidade 


f(x) = 


(%)<?, 

(%)r\ 


Obtenha E (Y ), se Y = | X |. 


X ^ 0 

x > 0. 
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50. Se X for uniforme no intervalo [0,1], obtenha a media da v.a. Y = (%)X 2 . 


51. Distribuigao de Weibull. Um modelo quetem muitas aplicagoes na teoriada confiabilidade e 
o modelo de Weibull, cuja f.d.p. e dada por 

f /v \ _ f afixP- x^O 

rW_ t 0, x < 0, 

onde ae p sao constantes positivas. A v.a. X pode representor, por exemplo, o tempo de 
vida de um componente de um sistema. 

(a) Se/3 = 1, qual a f.d.p. resultante? (b) Obtenha E (X ) para ft-2. 


52. Distribuigao Beta. Uma v.a. X tern distribuigao beta com parametros a > 0, ft > 0, se sua 
f.d.p. for dada por 


1 



B(a, p) 

0, 


xMl- x)0-\ 


0 < x < 1 
caso contrario. 


Aqui, B (a, p) e a fungao beta, definida por 

B (a, p) = I X^Hl - xj^^dx. 

JO 

E possfvel provar que B (a, p) =r(a)r(p)/r(a + p). Afigura abaixo mostra a densidade 
da distribuigao beta para a - p - 2. Para esse caso, calcule P(X « 0,2). Calcule a 
media e a variancia de X para a-p - 2. 



a = p = 2 


53. Se na distribuigao t de Student colocarmos v = 1, obteremos a distribuigao de Cauchy, 

1 1 


f(x) = 


n 1 + x 2 


Mostre que E (X) nao existe. 

54. Obtenha o grafico da f.d.a. de uma v.a. T ~ Exp(0, 5), ou seja, E(T) -2, considerando 
20 valores de T e calculando os valores de F (t), como na segao 7.9. 

55. Idem, para 30 valores de uma uniforme no intervalo [-1,1]. 

56. Obtenha os quantis Q (0,1), Q Jf Q 2 , Q 3 , Q (0,9) para uma v.a. X ~ N (10; 16). 

57. Resolva a mesma questao para uma v.a. Y ~ X 2 (5). 
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58. Para uma v.a. com distribuigao qui-quadrado, com vgraus de liberdade e vpar, vale a 
seguinte formula: 


v/2-1 


P (2f 2 (v) >c) =e c ' 2 Y [CIZ ' 

^ : I 


(c/2) 1 

M j! 


Calcule essa probabilidade para os seguintes casos e compare com os valores tabelados 
na Tabela IV: 

(a) v= 4, c = 9,488; (b) v = 10, C =16. 

59. Usando a aproximagao normal a uma variavel qui-quadrado, calcular: 

(a) P (29(35) > 49,76); (b) o valor y tal que P (29(40) > y) =0,05. 

60. Se X ~ N (n , a 1 ), com densidade f(x) dada por (7.17), provemos que a integral 
I -j f(x) dx = 1. Como esta integral e sempre positiva, mostremos que 1 2 = 1. Novamente, 
como no Problema 32, fazemos a transformaqao X = /j + ct e obtemos 
| 2 = iJJe <t2+s2)/2 dsdt , onde os limites de integraqao sao - “ e “. Agora fazemos 
outra transformagao, passando de coordenadas cartesianas para polares: S = r COS 6, t = 
r sen Q, de modo que dsdt = r drd0. Segue-se, integrando primeiro com relagao a r e 
depois com relagao a 0, que 


l 2 = — 


]_ n2ir po 

>7rJo Jo 


a -r/2 


rdrd 6 =— 

2tt 


Lr ! 

W Jo 


~—r /2 ioo 


ie =T, 


1 p2i r 

— f dff = L 

*7T J 0 



Capitulo 8 


Variaveis Aleatorias 
Multidimensionais 


8.1 Distribuicao Conjunta 

Em muitas situagoes, ao descrevermos os resultados de um experimento, atribulmos 
a um mesmo ponto amostral os valores de duas ou mais variaveis aleatorias. Neste capi¬ 
tulo, iremos nos concentrar no estudo de um par de variaveis aleatorias, indicando que 
os conceitos e resultados apresentados estendem-se facilmente a um conjunto finito de 
variaveis aleatorias. Um tratamento mais completo e dado ao caso de variaveis discretas, 
nas segoes 8.1 a 8.4. 

Exemplo 8.1 Suponha que estamos interessados em estudar a composigao de famflias 
com tres criangas, quanto ao sexo. Definamos: 

X = numero de meninos, 

I 1, se o primeiro filho for homem 
1 0, se o primeiro filho for mulher, 

Z = numero de vezes em que houve variagao do sexo entre um nascimento e outro, 
dentro da mesma familia. 

Com essas informagoes, e supondo que as possfveis composigoes tenham a mes¬ 
ma probabilidade, obtemos a Tabela 8.1, onde, por exemplo, o evento HM H indica 
que o primeiro filho e homem, o segundo, mulher e o terceiro, homem. 

As distributes de probabilidades das v.a. X, Y e Z podem ser obtidas dessa tabela 
e sao dadas na Tabela 8.2. 
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Tabela 8.1: Composipao de famflias com tres 
crianpas, quanto ao sexo. 


Eventos 

Probabilidade 

X 

Y 

Z 

HHH 

1/8 

3 

1 

0 

HHM 

1/8 

2 

1 

1 

HMH 

1/8 

2 

1 

2 

MHH 

1/8 

2 

0 

1 

HMM 

1/8 

1 

1 

1 

MHM 

1/8 

1 

0 

2 

MMH 

1/8 

1 

0 

1 

MMM 

1/8 

0 

0 

0 


Tabela 8.2: Distribuicoes de probabilidades unidimensionais. 

_W_ (b) 


X 

0 

1 

2 

3 

y 

0 

1 2 

0 

1 

2 

p(x) 

1/8 

3/8 

3/8 

1/8 

p(y) 

1/2 

1/2 

p(z) 

1/4 

1/2 

1/4 


A Tabela 8.3 apresenta as probabilidades associadas aos pares de valores nas variaveis 
X eY. Nessa tabela, p(x, y) = P(X = x, Y = y) denota a probabilidade do evento{X =x e Y = y} = 
= {X = x} n {Y = y}. Essa tabela e denominada distribuigao conjunta de X e Y. 


Tabela 8.3: Distribuipao bidimensional 
da v.a. (X,Y). 


(x,y) 

p(x,y) 

(0,0) 

1/8 

(1,0) 

2/8 

(1-1) 

1/8 

(2,0) 

1/8 

(2,1) 

2/8 

(3,1) 

1/8 


A partir da Tabela 8.1 podemos formar tambem as distribuigoes conjuntas de X e Z, 
de Y e Z, bem como a distribuigao conjunta de X, Y e Z, que esta dada na Tabela 8.4. 


Tabela 8.4: Distribuicao conjunta das 
v.a. X, Y eZ. 
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Aqui, p(x, y, z) = P(X =x, Y =y, Z =z). Vamos nos fixar nas distribuigoes bidimensionais, 
isto e, nas distributes conjuntas de duas variaveis. Nesse caso, uma maneira mais comoda 
de representar a distribuigao conjunta e por meio de tabelas de duplas entradas, como na 
Tabela 8.5, onde temos representada a mesma distribuigao de X e Y, dada antes na Tabela 8.3. 


Tabela 8.5: Distribuigao conjunta de X e Y, como uma tabela de dupla entrada. 



O 

1 

2 

3 

p(y) 

O 

1/8 

2/8 

1/8 

O 

1/2 

1 

O 

1/8 

2/8 

1/8 

1/2 

p(x) 

1/8 

3/8 

3/8 

1/8 

1 


A representagao grafica de variaveis aleatorias bidimensionais (X, Y) exige grafi- 
cos com tres eixos: urn para a v.a. X, outro para a v.a. Y e urn terceiro eixo z para a 
probabilidade conjunta p(x, y). A Figura 8.1 representa a distribuigao conjunta resumida 
na Tabela 8.5. A dificuldade em desenhar e interpretar tais graficos nos leva, muitas 
vezes, a evitar o uso desse recurso tao valioso. 


Figura 8.1 Representacao grafica da v.a. 
(X, Y ) da Tabela 8.5. 



Uma tentativa de representar distribuigoes de probabilidades discretas em duas 
dimensoes e o grafico de curvas de niveis. Esse e o mesmo recurso utilizado em mapas 
geograficos sobre relevos, indicando-se por meio de linhas as cotas (alturas) de mes¬ 
ma intensidade em uma regiao. Curvas de niveis podem ser usadas tambem em mapas 
meteorologicos, de mares etc. 

Embora tais mapas sejam usados principalmente para variaveis contfnuas, vamos 
exemplificar abaixo sua construgao para os dados da Tabela 8.5. Notamos que existem valores 
apenas para as probabilidades 0, 1/8, 2/8 e 3/8, e cada urn deles define urn conjunto de 
pontos. Por exemplo, correspondendo a probabilidade 1/8 temos o conjunto de pontos (0, 0), 
(1, 1), (2, 0) e (3, 1). Na Figura 8.2 (b) representamos esses pontos, que corresponded am a 
"curva de nfvel" para a cota 1/8. De modo analogo tragadamos as demais curvas de niveis. A 
Figura 8.2 (e), reunindo todos os resultados, seria "equivalente” a Figura 8.1. Assim, os 
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pontos representados por x formariam a curva de nivel da cota 1/8; os pontos representados 
por o formariam a curva de nfvel com cota (probabilidade) 2/8, e assim por diante. Esse 
recurso e mais bem visualizado para variaveis continuas, como na Figura 8.17. 


Figura 8.2: Curvas de nfveis para a Tabela 8.5. (a) p(x, y) =0 (b) 
p(x, y) = 1/8 (c) p(x, y) = 2/8 (d) todas as cotas 


y 

I* 


1 2 3 x 

(a) 


1 2 3 

(c) 



8.2 Distribuicoes Marginals e Condicionais 

Da Tabela 8.5 podemos obter facilmente as distribuigoes de X e Y. A primeira e ultima 
colunas da tabela dao a distribuigao de Y, (y, p(y)), enquanto a primeira e ultima linhas da 
tabela dao a distribuigao de X, (x, p(x)). Essas distributes sao chamadas distribuigoes 
marginais. 

Observamos, por exemplo, que 

P (X = 1) = P (X = 1, Y = 0) + P (X = 1, Y = 1) = 2/8 + 1/8 = 3/8 
e 

P (Y = 0) = P (X = 0, Y = 0) + P (X = 1, Y = 0) + P (X = 2, Y = 0) + P (X = 3, Y = 0) 

= 1/8 + 2/8 + 1/8 + 0 = 1 / 2 . 

Portanto, para obter as probabilidades marginais basta somar linhas e colunas. 

Quando estudamos os aspectos descritivos das distribuigoes com mais de uma varia- 
vel, vimos que, as vezes, e conveniente calcular proporgoes em relagao a uma linha ou 
coluna, e nao em relagao ao total. Isso e equivalente aqui ao conceito de distribuigao 
condicional. Por exemplo, qual seria a distribuigao do numero de meninos, sabendo-se 
que o primeiro filho e do sexo masculino? Ou seja, queremos calcular a probabilidade 
P(X = x|Y = 1). Da definigao de probabilidade condicional, obtemos 

P (X =x|Y =1) = P(X p( y X : Y 1) =1) = p(x|Y =1), 
para x = 0, 1, 2, 3. Pela Tabela 8.5 obtemos, por exemplo, 


( 8 . 1 ) 
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p(2|Y = 1) = P (X = 2|Y = 1) 


P (X = 2, Y = 1) _ 2/8 _ nn 
P (Y = 1) 1/2 1 


Do mesmo modo, obtemos as demais probabilidades, e a distribuigao condicional 
de X, dado que Y = 1, esta na Tabela 8.6. 


Tabela 8.6: Distribuigao condicional de X, dado que Y = 1. 


X 

1 

2 

3 

p(x[Y =1) 

1/4 

1/2 

1/4 


Observe que X x p(x|Y = 1) = p(0|Y = 1) + ... + p(3[Y =1) = 1. 

Do mesmo modo, podemos obter a distribuigao condicional de Y, dado que X = 2, 
que esta na Tabela 8.7. 


Tabela 8.7: Distribuigao condicional de Y, dado que 
X =2. 


y 

0 

1 

p(y|x = 2 ) 

1/3 

2/3 


Podemos generalizar o que foi dito acima para duas v.a. X e Y quaisquer, assumin- 
do os valores x v x 2 , ..., x n e y lf y 2 , ..., y m , respectivamente. 


Definigao Seja x., urn valor de X, tal que P(X = x,) = p(x,) > 0. A probabilidade 


P (Y = y.|X = x.) = P(X Xi,Y Vi ' 
y> 1 P (X = x.) 


= 1.m, 


( 8 . 2 ) 


e denominada probabilidade condicional de Y = y., dado que X = x i . 

Como observamos acima, para x. fixado, os pares (y., P(Y = y |X = x.)), j = 1, ..., m, 
definem a distribuigao condicional de Y, dado que X = x., pois 


ip(Y=y|X=x) = X P(Y=y i ' X=X | ) 

1 1 P (X = x) 


i=l 


j=l 


P(x =Xj) = 
P (X =x,) 


Considere a distribuigao condicional de X, dado que Y = 1, da Tabela 8.6. Podemos 
calcular a media dessa distribuigao, a saber 

E (X |Y =l) = lx J -+2x^+3x^=2. 

4 2 4 

Observe que E(X) = 1,5, ao passo que E(X |Y =1) = 2. 

De modo geral temos a seguinte definigao. 
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Definigao A esperanga condicional de X, dado que Y = y, e definida por 

E (X |Y = y.) =Zx i P(X = xJY = y.). 

Uma definigao analoga vale para E(Y|X = x i ). 

Exemplo 8.2. Para a distribuigao condicional de Y, dado que X = 2, da Tabela 8.7, temos 

E(Y|X =2)=0Xy+lX-|- = y . 

Exemplo 8.3 Considere, agora, a distribuigao conjunta das variaveis Y e Z, definidas 
no Exemplo 8.1. Da Tabela 8.1 obtemos a Tabela 8.8. Aqui, observamos que 

p (Z =Z|Y =y) = P(Z p° Y Z 'J y ° yl = P (Z =Z> 

para quaisquer z = 0, 1, 2 e y = 0, 1. 0 que significa dizer que 

P(Z = z, Y = y) = P(Z = z) P(Y = y), 

isto e, a probabilidade de cada casela e igual ao produto das respectivas probabiIida- 
des marginals. Por exemplo, 

P (Z = 1, Y = 1) = =j- = P (Z = 1)P (Y = 1). 


Tabela 8.8: Distribuigao conjunta de Y e Z. 



0 

1 

2 

p ( y ) 

0 

1/8 

2/8 

1/8 

1/2 

1 

1/8 

2/8 

1/8 

1/2 

P(z) 

1/4 

2/4 

1/4 

1 


Tambem e verdade que 

P (Y = y|Z = z) = P (Y = y) 

para todos os valores de y e z. Dizemos que Y e Z sao independentes. 

Definigao As variaveis aleatorias X e Y, assumindo os valores x 1( x 2 , ... e y v y 2 , ..., 
respectivamente, sao independentes se, e somente se, para todo par de valores (x i( y^ 
de X e Y, tivermos que 

P (X = X| ,Y =y.) = P (X = x.) P (Y =yj). (8.3) 

Basta que (8.3) nao se verifique para urn par (x., yj, para que X e Y nao sejam indepen¬ 
dentes. Nesse caso diremos que X e Y sao dependentes. 

Essa definigao pode ser estendida para mais de duas variaveis aleatorias. 
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Pro 




1. Langam-se, simultaneamente, uma moeda e um dado. 

(a) Determine o espago amostral correspondente a esse experimento. 

(b) Obtenha a tabela da distribuigao conjunta, considerando X o numero de caras no 
langamento da moeda e Y o numero da face do dado. 

(c) Verifique se X e Y sao independentes. 

(d) Calcule: 

1. P (X =1) 

2. P (X *£l) 

3. P (X < 1) 

4. P(X = 2, Y = 3) 

5. P(XsO,Y«4) 

6. P(X =0, Y s=l) 

2. Atabela abaixo da a distribuigao conjunta de X e Y. 

(a) Determine as distributes marginais de X eY. 

(b) Obtenha as esperangas e variancias de X e Y. 

(c) Verifique se X e Y sao independentes. 

(d) Calcule P (X = 1|Y =0) e P(Y =2|X =3). 

(e) Calcule P (X « 2) e P (X =2, Y ^ 1). 


X 

Y \\ 

1 

2 

3 

0 

0,1 

0,1 

0,1 

1 

0,2 

0 

0,3 

2 

0 

0,1 

0,1 


3. Considere a distribuigao conjunta de X e Y, parcialmente conhecida, dada na tabela abaixo. 

(a) Complete a tabela, considerando X e Y independentes. 

(b) Calcule as medias e variancias de X e Y. 

(c) Obtenha as distributes condicionais de X, dado que Y =0, e de Y, dado que X = 1. 



8.3 Fun^oes de Variaveis Aleatorias 

Retomemos a Tabela 8.5, que da a distribuigao conjunta das variaveis aleatorias X e Y. 
A partir dela, podemos considerar, por exemplo, a v.a. X + Y, ou a v.a. XY. A soma X + Y e 
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definida naturalmente: a cada resultado do experimento, ela associa a soma dos valores de 
X e Y, isto e, 

(X + Y)M = X(<u) + Y(<u). (8.4) 

Do mesmo modo, 

(XY)U) =X(<u)YU). (8.5) 

Podemos, entao, construir a Tabela 8.9. 


Tabela 8.9: Fungoes de variaveis aleatorias. 


(X, Yj) 

X + Y 

XY 

Pfx.Yj) 

(0,0) 

0 

0 

1/8 

(0,1) 

1 

0 

0 

(1,0) 

1 

0 

2/8 

(1,1) 

2 

1 

1/8 

(2,0) 

2 

0 

1/8 

(2,1) 

3 

2 

2/8 

(3,0) 

3 

0 

0 

(3,1) 

4 

3 

1/8 


A partir dessa tabela, obtemos as distribuigoes de X +Y e XY, ilustradas nas Tabelas 
8.10 e 8.11. 


Tabela 8.10: Distribui^ao de X +Y. 


x +y 

0 

1 

2 

3 

4 

p(x +y) 

1/8 

2/8 

2/8 

2/8 

1/8 


Tabela 8.11: Distribuicao deXY. 


xy 

0 

1 

2 

3 

p(xy) 

4/8 

1/8 

2/8 

1/8 


Vimos, no Capitulo 6, como calcular a esperanga de uma v.a. Para as v.a X eY da 
Tabela 8.5, temos: 

E (X)=0xi + lx} + 2x| + 3xi=f =1,5, 

E(Y) = 0 x A +1 x 1 = 0,5. 

Da Tabela 8.10, obtemos 

E(x +Y)=0xl + lxi+2xi+3xl+4xI = ^= 2. 

8 8 8 8 8 8 
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Notamos que E(X +Y) = E(X) + E(Y). Poderia ser uma simples coincidence, mas 
essa relagao e de fato verdadeira. 

Teorema 8.1. Se X for uma v.a. com valores x lf x n e probabilidades p(x 1 ), p(x n ), 
Y for uma v.a. com valores y v ..., y m e probabilidades p(y 1 ), ..., p(y m ), e se p(x i , y) = 
P(X = x i , Y =yj) ( i = 1, ..., n, j =1, ..., m, entao 

E(X + Y) = E(X) + E(Y). (8.6) 

Prova Observando a Tabela 8.9, podemos escrever 

n m 

E (X + Y) = | S i) S i (x i +y j )p(x i ,y j ) 

n m n m 

= Z Sx i p(x 1 , y) + Z Sy i p(x i , y). (8.7) 

i =ij =i > i =ij =i > 

Mas, para urn i fixo, 2 J m =1 p(x i , y) =p(x i ), e para urn j fixo, S" =1 p(x i( y ( ) = p(yj), logo, 
podemos escrever 

n n m n m 

E (X) =Xx i p(x i ) =Xx i X P(x,, y.) =X Xx i p(x i , y) 

i = i 1 1 i = i 1 j = i 1 1 i = i j = i 1 1 j 

e 

m m n n m 

e(y) =Z v j P(y j ) =Sy j Z 1 P(x i ,y j ) =SSy j p(x i , y.). 

Comparando essas duas ultimas relagoes com (8.7), obtemos a relagao (8.6). 

Do que foi visto acima, podemos concluir que, se X e Y sao duas v.a. nas condigoes 
do Teorema 8.1, e se g(X, Y) for uma fungao de X e Y, entao 

n m 

E [g(X, Y)] =Z 1 Sg(x i , y j )p(x i , y,). (8.8) 

Exemplo 8.4. Da Tabela 8.9 temos 

E(XY) = 0x4+0x0+0x|-+lx4+2xJ-+0x0 

o o o o 


E claro que o mesmo valor pode ser obtido da Tabela 8.11, isto e, se Z = XY e 
p(z) = p(xy), entao 

E(Z)=E(XY)=0x|+lx|+2x|+3x| = l. 

Observamos que, neste caso, 

E(Z) = E(XY) = 1 * E(X)E(Y) = (1,5) (0,5) = 0,75, 
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ou seja, de modo geral, a esperanga de um produto de duas v.a. nao e igual ao produto 
das esperangas das v.a. No entanto, existem situagoes em que essa propriedade se 
verifica. 0 teorema seguinte apresenta uma dessas situagoes. 

Teorema 8.2 Se X e Y sao variaveis aleatorias independentes, entao 

E (XY) = E(X) E(Y). (8.9) 


Prova. Nas condigoes do Teorema 8.1, usando (8.8) e (8.3), 


logo, 


e(xy) =Z 1 Z 1 x i y j p(x i , yj) =Z i Z 1 x i y j p(x i )p(y j ), 


E(XY) = Vx.p(x.)V y.p(y.) = E(X)E(Y). 

i=i 1 1 j=i i i 


A recfproca do Teorema 8.2 nao e verdadeira, isto e, (8.9) pode ser valida e X e Y 
serem dependentes. Veja o Exemplo 8.7 abaixo. 


Observagoes. (i) Se tivermos um numero finite de v.a. X 1( ..., X n , entao (8.6) toma a forma 

E(Xj + ... +X n ) =E(X 1 ) +... +E(X n ). (8.10) 

(ii) Se X 1( ..., X n forem v.a. independentes, entao 

E(X x X 2 ... X n ) = E(X x ) E(X 2 ) ... E(X n ). (8.11) 


Exemplo 8.5, Nas segoes 6.6.2 e 6.6.3 definimos a v.a. de Bernoulli e a v.a. binomial. 
Seja X o numero de sucessos em n provas de Bernoulli. Definamos 

1, se no i-esimo ensaio ocorreu sucesso 


X. = 


0, se no i-esimo ensaio ocorreu fracasso, 
i = 1, 2, ..., n. Entao, segue-se que 


X = Xj + X 2 + ... + X n , 

e X j, ..., X n sao independentes. Se p = P(sucesso), entao 

E(X.) = 1 x p + 0 x (1 - p) = p, i = 1, ..., n 

e, por (8.10), 

E (X) =E(X x ) +... +E(X n ) = np, 

o que demonstra a relagao (6.16). A relagao (6.17) sera demonstrada na segao seguinte. 
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lemas 


4. No Problema 2, obtenha as distributes de X + Y e de XY. Calcule E(X + Y ), E(XY ), 
Var(X +Y), Var(XY). 

5. (a) No Problema 3, calcule E (X +Y ) e Var(X +Y). 

(b) Se Z =aX + bY, calcule a e b de modo que E (Z) =10 e Var(Z ) =600. 

6. Dois tetraedros (dados com quatro faces) com as faces numeradas de urn a quatro sao 
langados e os numeros das faces voltadas para baixo sao anotados. Sejam as v.a.: 

X: maiordos numeros observados; 

Y: menor dos numeros observados; 

Z=X+Y. 

(a) Construa a tabela da distribu iga o conjunta de X e Y. 

(b) Determine as medias e as variancias de X, Y e Z. 

7. Numa urna tem-se cinco tiras de papel, numeradas 1, 3, 5, 5, 7. Uma tira e sorteada e 
recolocada na urna; entao, uma segunda tira e sorteada. Sejam X 2 e X 2 o primeiro e o 
segundo numeros sorteados. 

(a) Determine a distribu igao conjunta de X : e X 2 . 

(b) Obtenha as distributes marginais de X 1 e X 2 . Elas sao independentes? 

(c) Encontre a media e a variancia de X 2 , X 2 e X^= (X 2 +X 2 )/2. 

(d) Como seriam as respostas anteriores se a primeira tira de papel nao fosse devolvida 
a urna antes da segunda extragao? 

8. Numa urna tem-se cinco bolas marcadas com os seguintes numeros: -1, 0, 0, 0, 1. 
Retiram-se tres bolas, simultaneamente; X indica a soma dos numeros extraidos e Y o 
maior valor da trinca. Calcule: 

(a) Funqao de probabilidade de (X,Y). 

(b) E(X)eVar(X). 

(c) Var(X +Y). 

9. Dada a distribuigao conjunta de X e Y abaixo, determine a media e a variancia de: 

(a) X+Y. 

(b) XY. 


\x 

Y 

1 

2 

3 

1 

5/27 

1/27 

3/27 

2 

4/27 

3/27 

4/27 

3 

2/27 

3/27 

2/27 


10. Suponha que X e Y tenham a seguinte distribuigao conjunta: 


X 

Y X. 

1 

2 

3 

1 

0,1 

0,1 

0,0 

2 

0,1 

0,2 

0,3 

3 

0,1 

0,1 

0,0 
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(a) Determine a f.p. de X +Y e, a partir dela, calcule E(X +Y). Pode-se obter a mesma 
resposta de outra maneira? 

(b) Determine a f.p. de XY e, em seguida, calcule E(XY ). 

(c) Mostre que, embora E (XY) = E (X) E (Y), X e Y nao sao independentes. 

8.4 Covariancia entre Duas Variaveis Aleatorias 

Vamos introduzir agora uma medida da relagao linear entre duas variaveis aleatorias. 

Definigao Se X e Y sao duas v.a., a covariancia entre elas e definida por 

Cov(X, Y ) =E[(X - E(X ))(Y - E(Y ))], (8.12) 

ou seja, o valor medio do produto dos desvios de X e Y em relagao as suas respectivas 
medias. 

Suponha que X assuma os valores x x , x n , eY os valores y v ..., y m , e que P(X = 
x., Y = y) = p(x j , yp. Entao, (8.12) pode ser escrita 

n m 

Cov(X, Y ) =ZZlx.~ E (X )][y. - E(Y )] p (x, y ). (8.13) 

i =ij =i 1 j 1 ) 

A formula (8.12) pode ser escrita de uma forma mais simples. Note que 
Cov(X,Y ) = E [XY - XE (Y) - YE (X) + E (X )E (Y)] 

= E (XY) - E (X) E (Y) - E (Y) E (X) + E (X) E (Y), 


ou seja, 


Cov(X, Y) = E(XY) - E(X ) E(Y). 


(8.14) 


Exemplo 8.6, Para as v.a. X eY do Exemplo 8.1 (veja a Tabela 8.5), obtemos 

E(X) =1,5, E(Y) =0,5, E(XY) =1,0, 

de modo que 

Cov(X, Y) = 1,0 - (1,5) (0,5) = 0,25. 

Definigao, Quando Cov(X, Y) = 0, dizemos que as variaveis aleatorias X e Y sao nao 
correlacionadas. 

Exemplo 8.7 Consideremos a distribuigao conjunta de X e Y dada pela Tabela 8.12. 
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Tabela 8.12: Distribui?ao conjunta para o Exemplo 8.7. 


\ X 

Y 

O 

1 

2 

p(y) 

1 

3/20 

3/20 

2/20 

8/20 

2 

1/20 

1/20 

2/20 

4/20 

3 

4/20 

1/20 

3/20 

8/20 

p(x) 

8/20 

5/20 

7/20 

1,00 


Temos que: 


E(X)=0xi+lx|+2xl =0,95, 
E(Y)=lxi+2x^+3x ^ =2,00, 
E(XY)=0x Yq + 1X“^q + 2 x-^ +0x^+2x 

+ 4X A +0X ^ +3>< 2? +6>< ^ =m 


x 

20 


do que obtemos 

Cov(X,Y) = 1,90 - (0, 95)(2,00) = 0. 

Portanto, as v.a. X eY desse exemplo sao nao-correlacionadas. 

Exemplo 8.8. Retomemos o Exemplo 8.3, para o qual vimos que Y e Z sao indepen- 
dentes. E facil ver que E(Z) =1 e E(Y) = 1/2. DaTabela 8.8 obtemos que E(YZ) = 1/2, do 
que decorre que a covariancia entre Y e Z e zero. 

De modo geral, se X eY forem independentes, entao (8.9) e valida, logo, por (8.14) 
temos que Cov(X, Y) = 0. 

Vamos destacar esse fato por meio da 

Proposi^ao 8.1 Se X e Y sao duas variaveis aleatorias independentes, entao Cov(X, Y) = 0. 

Em outras palavras, se X e Y forem independentes, entao elas serao nao- 
correlacionadas. A reciproca nao e verdadeira, isto e, se tivermos Cov(X, Y) = 0, isso nao 
implica que X eY sejam independentes. De fato, para as v.a. do Exemplo 8.7, a covariancia 
entre X eY e zero, mas X e Y nao sao independentes, como podemos facilmente verificar. 
Podemos agora demonstrar o 

Teorema 8.3 (a) Para duas v.a. X e Y quaisquer, temos 

Var(X + Y) =Var(X) +Var(Y) + 2Cov(X, Y); 


(8.15) 
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(b) se X e Y forem independentes, entao 

Var(X +Y) =Var(X) +Var(Y). (8.16) 


Prova. 

(a) Var(X +Y) =E[(X +Y) - E(X +Y)] 2 

= E[X-E(X)+Y - E(Y)] 2 = E [X - E(X)] 2 + E[Y - E(Y)] 2 + 2E[(X - E(X))(Y - E(Y))], 
e da definigao de covariancia, obtemos (8.15). 

(b) A relagao (8.16) segue imediatamente da Proposigao 8.1. 

As relagoes (8.15) e (8.16) podem ser generalizadas para mais de duas variaveis. 
Em particular, se X 1( ..., X n sao v.a. independentes, entao 

Var(Xj + ... +X n ) = Var(Xj) + ... +Var(X n ). (8.17) 


Exemplo 8.5. (continuagao) Temos que 

Var(X i ) = p(l - p), para todo i 


logo 


1, n, 


Var(X) = Var(Xj) + ... + Var(X n ) = np(l - p), 
o que demonstra a relagao (6.17). 

Vamos introduzir agora uma medida que nao depende das unidades de medida de 
X eY. 0 analogo descritivo para dois conjuntos de dados foi introduzido na segao 4.5. 


Definigao. 0 coeficiente de correlagao entre X eY e definido por 

nfY v) - Cov(X,Y) 

P(X ' Y) " c(X)c(Y) 


(8.18) 


Exemplo 8.9. Para X eY do Exemplo 8.7, a covariancia entre X eY e zero, logo p(X, Y) 
= 0. Para X e Y do Exemplo 8.6, temos que Cov(X, Y) = 0,25. Verifique que Var(X) = 
0,75, Var(Y) = 0,25, logo 


p(X, Y ) 


0,25 

V (0,75) (0,25) 


= 0,58. 


O seguinte resultado sera demonstrado no Problema 48. 

Teorema 8.4 O coeficiente de correlagao entre X e Y satisfaz a desigualdade 


-1 p(X, Y) « 1. 

O coeficiente de correlagao e uma medida da relagao linear entre X e Y. Quando 
p(X, Y) =±1, existe uma correlagao perfeita entre X eY, poisY = aX + b. Se p(X, Y) = 1, 
a > 0, e se p(X, Y) = -1, a < 0. O grau de associagao linear entre X e Y varia a medida 
que p(X, Y) varia entre -1 e +1. 
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As seguintes propriedades podem ser provadas facilmente (ver Problema 38). Se a 
e b sao constantes, entao: 

p(X +a,Y +b) =p(X,Y), (8.19) 

p(aX, bY) = T |^ T p(X,Y). (8.20) 

Ou seja, se ab > 0, p(aX, bY) = p(X, Y) e se ab < 0, p(aX, bY) = -p(X, Y). 

Exemplo 8.10. Ainda usando o enunciado do Exemplo 8.1, defina a v.a. W como sendo 
o "numero de meninas". A distribuigao conjunta de X e W esta na Tabela 8.13. 


Tabela 8.13: Distribuipao con junta de X eW para o Exemplo 8.10. 


X 

W 

O 

1 

2 

3 

p(w) 

0 

O 

O 

O 

1/8 

1/8 

1 

0 

0 

3/8 

0 

3/8 

2 

0 

3/8 

0 

0 

3/8 

3 

1/8 

0 

0 

0 

1/8 

p(x) 

1/8 

3/8 

3/8 

1/8 

1 


E facil ver que 

E (X) =E(W) =1,5, 

Var(X) = Var(W) = 0,75, 

E(XW) = 1,5, 

do que segue que Cov(X, W) = -0,75 e portanto p(X, W) = -1. Esse e um resultado 
esperado, pois sabemos que X = 3 - W. 

Para se analisar a possfvel correlagao entre duas v.a. X e Y e conveniente usar os cha- 
mados diagramas de dispersao, que consistem no grafico dos pares de valores de X eY. 

Exemplo 8.11. Na Figura 8.3 temos os diagramas de dispersao para as v.a. X e Y e X e 
Z, do Exemplo 8.1. 

Figura 8.3: Diagramas de dispersao para as v.a. do Exemplo 8.1. 

(a)XeY 


(b) X e Z 


z 





2 ■ 

• 

• 



1 ■ 

.2 

• 2 



O 

1 

2 

(b) 

3 

X 
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Na Figura 8.3(a), ao lado dos pontos (1, 0) e (2, 1), colocamos o numero 2, para mostrar 
que esses pares tern probabilidades 2/8, ao passo que os demais tern probabilidades 1/8. 

Exemplo 8.12. 0 diagrama de dispersao das v.a. Y e Z do Exemplo 8.2 esta ilustrado 
na Figura 8.4. Lembremos que, nesse caso, Y e Z sao independentes. 


Figura 8.4: Diagrama de dispersao 
para as v.a. Y e Z do Exemplo 8.2. 


Y. 

1 ■ 

. 

• 2 • 

,2 

0 

1 2 Z 


Exemplo 8.13. Na Figura 8.5 temos o diagrama de dispersao das variaveis X e W do Exemplo 
8.10. Observe que, nesse caso, existe uma relagao linear perfeita entre as duas variaveis. 


Figura 8.5: Diagrama de dispersao para as v.a. X e W do 
Exemplo 8.10. 


W* 

3<» 


2 - * 3 


•3 


0 1 


2 


X 


lemas 


11 . Para as v.a. X e Y do Problema 2 e usando os resultados do Problema 4, calcule Cov(X,Y) 
e p(X,Y). 

12. Considere a situagao do Problema 10 do Capitulo 6. 

(a) Obtenha as distributes de X +Y e | X - Y |. 

(b) Calcule E(XY),E(X/Y)eE(X +Y). 

(c) Verifique se X e Y sao independentes. 
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(d) Verifique se E (X Y ) = E(X) E(Y). O que voce pode concluir? 

(e) Verifique se E(X/Y ) = E(X)/E(Y). 

(f) Calcule Var(X +Y). E verdade que Var(X +Y) =Var(X) +Var(Y)? 

13. Sejam X e Y com a distribuigao conjunta da tabela abaixo. Mostre que Cov(X ; Y) =0, mas 
X e Y nao sao independentes. 


" X 

Y \ 

-1 

0 

1 

-1 

0 

1/4 

0 

0 

1/4 

0 

1/4 

1 

0 

V4 

0 


14. Langam-se dois dados perfeitos. X indica o numero obtido no primeiro dado e Y o maior 
ou o numero comum nos dois dados. 

(a) Escreva por meio de uma tabela de dupla entrada a distribuigao conjunta de X e Y. 

(b) As duas variaveis sao independentes? Por que? 

(c) Calcule as esperangas e variancias deX e Y. 

(d) Calcule a covariancia entre X eY. 

(e) Calcule E (X+Y ). 

(f) Calcule Var(X+Y). 

15. Uma moeda perfeita e langada tres vezes. Sejam: 

X: numero de caras nos dois primeiros langamentos; 

Y: numero de caras no terceiro langamento; e 
S: numero total de caras. 

(a) Usando a distribuigao conjunta de (X ; Y), verifique se X e Y sao independentes. Qual 
e a covariancia entre elas? 

(b) Calcule a media e a variancia das tres variaveis definidas. 

(c) Existe alguma relagao entre os parametros encontrados em (£>)? Por que? 

16. Depois de um tratamento, seis operarios submeteram-se a um teste e, mais tarde, mediu-se 
a produtividade de cada um deles. A partir dos resultados apresentados na tabela ao lado, 
calcule o coeficiente de correlagao entre a nota do teste e a produtividade. 


Operario 

Teste 

Produtividade 

1 

9 

22 

2 

17 

34 

3 

20 

29 

4 

19 

33 

5 

20 

42 

6 

23 

32 


17. O exemplo a seguir ilustra que p - 0 nao implica independence. Suponha que (X, Y) 
tenha distribuigao conjunta dada pela tabela abaixo. 

(a) Mostre que E (X Y ) =E (X ) E (Y ), donde p =0. 

(b) Justifique por que X e Y nao sao independentes. 
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x 

Y 

-1 

0 

1 

-1 

1/8 

1/8 

1/8 

0 

1/8 

0 

1/8 

1 

1/8 

1/8 

1/8 


8.5 Variaveis Continues 

Nesta segao vamos considerar o caso de duas v.a. continuas, X eY. Nesse caso, a 
distribuigao conjunta das duas variaveis e caracterizada por uma fungao f(x, y), cha- 
mada fungao de densidade conjunta de X eY, satisfazendo: 

(a) f(x, y) > 0, para todo par (x, y); 

roo roo 

(b) yjdxdy = 1; 

(c) P(a X b, c *£ y d) = y)dydx. 

A relagao (b) nos diz que o volume sob a superficie representada por f(x, y) e igual 
a 1. A relagao (c) da a probabilidade do par (x, y) estar num retangulo de lados b-a e d-c. 

Exemplo 8.14. Suponha que f(x, y) = 4xy, 0 =£ x 1, 0 « y « 1. Entao, (a) esta satisfeita e 

fjl 4xydxdy = 4/fxdx (ydy = 4[x 2 /2]J[y 2 /2]J = 1, 

o que mostra que (b) tambem esta satisfeita. 

Calculemos P(X 1/2, Y 1/2). A Figura 8.6 mostra o dominio de variagao de X e 
Yea regiao para a qual X 1/2, Y 1/2. Logo, por (c), 

P (X 1/2, Y =£ i/2) = p (0 X =£ 1/2, 0 ^ Y ^ 1/2) 

AI2 All 

= l l 4xydxdy = 4[x 2 /2] 1 0 /2 [y 2 /2] 1 0 /2 = 1/16. 


Figura 8.6 Dominio de variagao de (X, Y) 
para o Exemplo 8.14. 


Y 




1/2 







0 

1/2 

X 
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Exemplo 8.15. Suponha que a v.a. (X, Y) seja uniformemente distribufda no quadrado 
Q da Figura 8.6. Isso significa que 



se (x, y) g Q 
caso contrario. 


( 8 . 21 ) 


4 4 


Como vimos, (b) acima vale, logo / 0 / 0 cdxdy = 1 e segue-se que c = 1. Como a area de Q 
e 1, na realidade c = y ■ Veja a Figura 8.7. 

De modo geral, podemos representar a densidade bidimensional f(x, y) por uma 
superffcie no espago tridimensional, como ilustra a Figura 8.8. 


Figura 8.7 Densidade uniforme no quadra¬ 
do de lado unitario, com densi¬ 
dade condicional representada. 



Se A for urn evento, entao a probabilidade P((X, Y) e A) sera representada pelo 
volume sob a superffcie, delimitado pela regiao A, no piano (x, y), e pela superffcie 
cilfndrica na Figura 8.8. 


Figura 8.8 Densidade como uma superffcie no 
espaco e P ((X, Y ) E A) = P (A). 



Se a densidade f(x, y) for positiva numa regiao qualquer R do piano (x, y), uma v.a. diz-se 
uniformemente distribufda sobre R se f(x, y) = l/area(R), para (x, y) e R, e f(x, y) = 0 nos 
demais pontos. Veja a Figura 8.9. 
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Figura 8.9 Distribuicao uniforme na regiao R do piano (x, y). 


f(x : 



piano paralelo 
ao piano (x, y) 


x 


Vimos que, no caso discrete, a partir da distribuigao conjunta de duas v.a. X e Y, podiamos 
determinar a distribuigao marginal de cada variavel. 0 mesmo ocorre para v.a. continuas. 

Freqiientemente, usaremos a notagao (X, Y) para denotar o par de v.a. e diremos que 
essa e uma v.a. bidimensional. Usamos, tambem, a nomenclatura vetor bidimensional. 

Definigao. Dada a v.a. bidimensional (X, Y), com fungao densidade de probabilidade 
conjunta f(x, y), definimos as densidades marginais de X eY respectivamente por 



( 8 . 22 ) 


e 



(8.23) 


Exemplo 8.16. Para as v.a. do Exemplo 8.14, temos 

f x 00 =^4xydy = 4x[y 2 /2]J = 2x, 0 « x ^ 1, 



Exemplo 8.17. Considere a v.a. (X, Y) com densidade conjunta 

f(x, y) = Y' 0 <x < !. 1 <y <e. 


Entao, as densidades marginais sao dadas por 
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W-Cf^-T 

Para o Exemplo 8.14, vemos que o produto das densidades marginais e igual a 
densidade conjunta, para todo par (x, y) do dominio [0,1] x [0,1], que e o produto 
cartesiano dos dominios de variagao de X e Y. Dizemos que as v.a. sao independentes. 

Definigao As variaveis aleatorias X e Y, com densidade conjunta f(x, y) e marginais 
f x (x) e f y (y), respectivamente, sao independentes se 

f(x, y) = f x (x) f y (y), para todo par (x, y). (8.24) 

Exemplo 8.18. Se a fungao densidade conjunta de X eY for dada por 

f(x, y) = e- x -y, x > 0, y > 0, 

entao e facil ver que 

f x (x) = e- x , x > 0, 
f Y (y) = e-y, y > 0, 

de modo que X eY sao independentes. 

As definigoes de covariancia, coeficiente de correlagao etc. continuam, e claro, a 
valer para v.a. bidimensionais contfnuas. Portanto, se X eY sao independentes, o coe¬ 
ficiente de correlagao entre elas e zero. 

Exemplo 8.19 Calculemos o coeficiente de correlagao entre X eY, se a densidade 
conjunta delas for 

f(x, y)=x+y, 0<x<l, 0 < y < 1. 

Temos que as marginais sao dadas por 

f x (x) = jf(x+y)dy =x +112, 0<x<l, 

My) = ^(x +y)dx = y + 1 / 2 , o < y < i. 

A partir delas, calculamos medias e variances: 

E (X ) =yfx(x + l/2)dx =7/12 = E (Y ), 

E (X 2 ) = /x 2 (x + l/2)dx =5/12 = E (Y 2 ), 

Var(X ) = Var(Y) = 5/12 - 49/144 = 11/144. 

Para calcular a covariancia entre X e Y necessitamos calcular 

e(xy) =/X x y( x + y) dxd v = /'(y/ 3 + y 2 /2)d y = 1 / 3 . 


»■ i<y<e ' 
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Logo, 

Cov(X, Y ) = E (XY ) - E (X ) E (Y) = 1/3 - (7/12)(7/12) =-1/144. 

Finalmente, o coeficiente de correlagao entre X eY e dado por 

n /v v ) = Cov(X,Y) = _1 
p[ 1 ' cr(X )cr(Y) 11' 


emas 


18. As v.a. X e Y tem distribuigao conjunta dada por 


f(x,y) = 


-^x(x-y), 


0<x<2,-x<y<x 
0, caso contrario. 

(a) Faqa um grafico do dominio de variagao de X e y. 

(b) Prove que / / f(x, y)dxdy = 1. 

(c) Encontre asf.d.p. marginais deX eY. 

(d) Encontre a P (X =£ 1). 

19. Suponha que as v.a. X e Y tenham f.d.p. 

e _,x + y\ x > 0, y > 0 


1 0, nos demais pontos. 

(a) Calcule as f.d.p. marginais de X e Y. 

(b) Calcule P(0<X < 1,1 <Y <2). 

(c) Calcule p(X,Y). 


8.6 Distribuicoes Condicionais Contmuas 

Nesta segao vamos tratar de obter a distribuigao condicional de uma variavel, dado 
que a outra assume um particular valor. Como sabemos, para uma v.a. contfnua X, a 
P(X = x) =0, logo a definigao a seguir tem de ser interpretada apropriadamente. 

Definigao A densidade condicional de X, dado queY = y e definida por 

f ™ (x| y ) = Tnyr f<(y)>0 ' (8,25) 

e a densidade condicional de Y, dado que X = x e definida por 

f,(x) > 0. (8.26) 

A interpretagao de (8.25), por exemplo, e a seguinte. SeY = y 0 , considere o piano 
passando por y 0 e paralelo ao piano (x, z). Esse piano determina na superficie f(x, y) = z 
a densidade condicional f x|Y (x|y 0 ). M esma interpretagao vale para (8.26). Suponha, 
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por exemplo, que X denote o salario de um conjunto de individuos eY denote o consu- 
mo deles. Entao, fixado o consumo y 0 , a densidade condicional f x|Y (x|y 0 ) representa a 
densidade dos salarios para aquele nfvel fixado de consumo. Nas Figuras 8.7 e 8.10 
ilustramos como essa densidade condicional pode ser representada. 

Exemplo 8.20. Suponha que a densidade de (X, Y) seja dada por 
f(x, y) = 6(1 - x - y), 0 < x < 1, 0 < y < 1 - x. 

0 dominio de variagao dos pares (x, y) e o triangulo da Figura 8.11. 


Figure! 8.10: Densidade condicional de X, dado 
queY =y 0 . 



Figura 8.11 Domfnio de variapao de (X, Y) 
para o Exemplo 8.20. 



Temos, entao, que as densidades marginais sao dadas por: 

f x (x)= / 0 1 *6(1 - x - y)dy = 6[y - xy - y 2 /2]J~ x = 3(x - l) 2 , 0<x<l, 

f Y (y) V 6(l - x - y)dx = 3(y - l) 2 , 0 < y < 1. 
Consequentemente, as densidades condicionais sao 

U»'yi = 2 < 1 (y- x iY yl • 0 <x< 1 -y' 

= 2(1 (x "- x i> yl ' 0 <v<!- x- 

Observe que f XIY (x|y) define, de fato, uma densidade de probabilidade, para y fixa¬ 
do. Temos que 


f X|Y (x|y)dx = f n f(x, y)/f Y (y) dx = l/f Y (y) /_ f(x, y)dx = f Y (y)/f Y (y) = 1. 

Por exemplo, se X = 0,5, f Y|X (y|X = 0,5) = 4(1 - 2y), 0 < y < 1/2. Essa e uma densida¬ 
de que depende do valor observado de X. Assim, 

r V2 4/2 

P(0 <Y <1/2 |X =0,5) = l f Y|X (y|0,5)dy =4/ o (1 - 2y)dy = 1. 
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Dado que f x|Y (x|y) e f Y]X (y|x) definem densidades de probabilidades, tem sentido em cal- 
cular suas medias, variances etc. 

Definigao A esperanga condicional de Y, dado que X = x, e definida por 

E (Y[x) = /”yf Y ix(yl x )dy» (8.27) 

e definigao analoga para E(X|y). 

Note que E(Y|x) e uma fungao de x, isto e, E(Y|x) = s(x), e e denominada curva de 
regressao de Y sobre x. Na realidade, E(Y|x) e o valor da variavel aleatoria E(Y|X). A 
mesma interpretagao deve ser dada para E(X|y). A Figura 8.12 ilustra esses conceitos. 


Figura 8.12: Curvas de regressao de Y sobre x e de X sobre y. 


E(X|y). 




y 



Exemplo 8.21, Suponha que 

f / x y) = (1/2, se x - y > 0, x ^ 2, x, y 0 
' y [0, caso contrario. 

0 domfnio de variagao de (x, y) esta na Figura 8.13, juntamente com as curvas de 
regressao. 


Figura 8.13: Cui^as de regressao para o Exemplo 8.21. 



Temos, entao, 
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f x (x) = [ill dy = x/2, 0<x<2, 
f Y (y) = / y 2 1/2 dx = 1 - y/2, 0 < y < 2, 
e, portanto, as densidades condicionais sao 

WyW = % = 1/x, 0 < y <x 


f x,y(x|y) = 1/2 " 


1 - y/2 2 - y’ 

As esperangas condicionais serao dadas por 


y <x < 2. 


E(Y|x)=y; y y dy = y, 

E (x|y) = / x 2-^7 dx = 1+ l' 

Note, portanto, que ambas as curvas de regressao sao fungoes lineares, como ilustra a 
Figura 8.13. No caso geral, a Figura 8.14 mostra como seriam essas medias condicionais. 


Figura 8.14: Representacao grafica da curva de regressao de Y sobre X. 



Problemas 


20. Calcule f xlY (x|y) e f Y|X (y|x) para a densidade do Problema 18. 

21. Calcule as densidades condicionais para o Problema 19. Comente. 

22. Calcule as densidades marginais e condicionais para a v.a. (X, Y ), com f.d.p. 

f(x, y) =(l/64)(x+y), 0=sx«4, 0^y«4. 

23. Mesmos itens do Problema 22 para a f.d.p. conjunta 

f(x, y) = 3e- (x+3 ' ,) , x > 0, y > 0. 

24. Calcule as esperangas condicionais E(Y jx) e E(X |y) para o Problema 21. 
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25. Calcule as esperangas condicionais para o Problema 22. 

26. Prove que E(E(X |Y )) =E(X). 

(Sugestao: E (X |y) e uma fungao de y e portanto e uma v.a. Na realidade, E (X |y) e o valor 
da v.a. E (X |Y)! Considere a expressao para E (X |y) e tome a esperanga novamente. Mude 
a ordem das integrais e obtenha o resultado.) 

8.7 Funcoes de Variaveis Contmuas 

0 tratamento desta segao e uma extensao daquele para uma variavel contfnua (ver 
segao 7.6). Considere duas variaveis X eY, com fungao densidade conjunta f(x, y) e 
suponha que queremos obter a densidade das variaveis Z e W, tais que 

Z =h 1 (X,Y) 

W = h 2 (X, Y) 

Suponha que possamos expressar x e y em fungao de z e w, isto e, 

x = g 1 (z, w), 
y = g 2 (z, w). 

Supondo que as derivadas parciais de x e y, em relagao a z e w, existam e sejam 
contmuas, podemos obter a densidade conjunta de Z e W atraves de 

g(z, w) =f(g 1 (z, w), g 2 (z, w))lj I, (8.28) 

onde J e o Jacobiano da transformagao que leva (x, y) em (z, w), dado por 

dx dx 
dz 9w 
‘ ~ dy_ _9y 
dz 9w 

d x 

No caso unidimensional, Y = h(X), J era simplesmente —, com x = h _1 (y). 

dy 

Exemplo 8.22, Retomemos o Exemplo 8.14, no qual tinhamos 

f x (x) = 2x, 0 < x < 1, 
f Y (y) = 2y, 0 < y < 1, 

eX eY eram independentes. 

Suponha que queiramos determinar a densidade F z (z) da v.a. Z = XY. Considere 
W = X e portanto x=w,y = ^eoJ acobiano e 


0 1 

1 zl 

w w 2 


1 _ 
w ' 
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de modo que 


g(z, w) = 4w ^|-^| =f, 0<w<l,0<^< 
Segue-se queO<z<w<lea densidade de Z e obtida por 

f z (z) = £q(z, w)dw = dw = - 4z Mi), 0 < z < 1. 


lemas 


27. Encontre a densidade de Z = X +Y para X e Y v.a. independentes, com f x (x) = 2x, 
0 <x < 1 e f Y (y) =2y, 0 <y < 1. 

(Sugestao: considere 0<z<lel<z<2.) 

28. Se X fiver densidade f x (x) =2x, O^x^leY fiver densidade f Y (y) = y 2 /9, 0 « y ^ 3 e 
forem independentes, encontre a densidade de W =XY. 

29. Encontre a densidade de Z = X/Y, se X e Y sao independentes, com densidades 
f x (x) = e x , x > 0 e f Y (y) = 2e‘ 2y , y > 0. 

(Sugestao: z = x/y, w = y.) 


8.8 Distribuicao Normal Bidimensional 

Assim como a distribuigao normal e um modelo importante para variaveis contfnuas 
unidimensionais, para v.a. contfnuas bidimensionais podemos considerar o modelo 
normal bidimensional, definido a seguir. 


Definigao. A variavel (X, Y) tern distribuigao normal bidimensional se sua densidade 
conjunta for dada por 


f(x, y) 


- , exp 

2na x a^ll - p 2 


1 

2(1 - p 2 ) 


/ * - p x \ 2 _ 2 (x - p x )(y - p y ) 

A 



(8.29) 


para -oo < x < oo, -oo < y < oo. 

Aqui, estamos usando a notagao exp{z} = e z . 

Vemos que a densidade em questao depende de cinco parametros: as medias p x e 
p y , que podem assumir quaisquer valores reais, as variancias ct 2 e ct 2 , que devem ser 
positivas, e o coeficiente de correlagao p entre X e Y, que deve satisfazer -1 < p < 1. 
Dois exemplos de graficos dessa densidade estao representados na Figura 8.15. 
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Figura 8.15: f.d.p. de normals bidimensionais. 

(a) A,=P y = 0 , cr = CT y = 1 , p = 0 ; (b)p x =p y = 0 , cx = a y = 1 , p = 0 , 6 . 




As seguintes propriedades podem ser demonstradas: 

(a) As distributes marginais de X e Y sao normais unidimensionais, a saber 

X ~ N ( J u x , <r 2 ), Y ~ N (p y , <r y 2 ). 

(b) p = Corr(X, Y). 

(c) As distributes condicionais sao normais, com 

f„(yix)~NU, + p^(x-M,), <^1-P)), 

f X|Y (x|y) ~ N(p x +p-J(y- p y ), ct x 2 (1 - p 2 )). 

y 


Ou seja, as medias condicionais sao fungoes lineares. Ver Figura 8.16. 

Figura 8.16: Curva de regressao de X sobre y para o caso da normal bidimensional. 
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Se chamarmos z = f(x, y), entao z = c, constante, determina sobre a superffcie uma 
curva de nivel, que nesse caso e uma elipse. Variando c, teremos as diversas curvas de 
nfvel (que sao curvas onde a densidade de probabilidade e constante), semelhantes as 
curvas de nivel de um mapa de relevo. No caso em que p = 0 e as variances sao 
iguais, isto e, = & , essas curvas serao circulos. Veja a Figura 8.17 

Vimos que p = 0 significa que as variaveis X eY sao nao-correlacionadas. Aqui, 
poderemos concluir algo mais. Nessa situagao poderemos escrever a densidade 
(8.29) como 


f(x, y) 



e“2 


-!(^f 




(8.30) 


isto e, a densidade conjunta e o produto das duas marginais, que sabemos serem nor¬ 
mals. Ou seja, concluimos que X e Y sao independentes. Portanto, no caso em que X e 
Y tiverem densidade conjunta normal bivariada, p = 0 e equivalente a independence 
entre X e Y. 


Figura 8.17: Curvas de nfvel para a normal bidimensional. 



8.9 Problemas e Complementos 

30. Um sinal consiste numa serie de vibragoes de magnitude X, tendo os valores -1, 0,1, cada um 
com probabilidade 1/3. Um rufdo consiste numa serie de vibragoes, de magnitude Y, tendo os 
valores -2,0,2, com probabilidades 1/6,2/3,1/6, respectivamente. Combinando-se o sinal com 
o rufdo, obtemos o sinal efetivamente observado, Z =X +Y . Construa a fungao de probabilidade 
para Z e calcule a sua media e variancia, admitindo que sinal e rufdo sao independentes. 

31. Numa comunidade em que apenas dez casais trabalham, fez-se um levantamento no 
qual foram obtidos os seguintes valores para os rendimentos anuais: 











232 


CAPITULO 8 — VARIAVEIS ALEATORIAS MULTIDIMENSIONAIS 


Casal 

Rendimento do Homem (X) 

Rendimento da Mulher (Y ) 

1 

10 

5 

2 

10 

10 

3 

5 

5 

4 

10 

5 

5 

15 

5 

6 

10 

10 

7 

5 

10 

8 

15 

10 

9 

10 

10 

10 

5 

10 


Um casal e escolhido ao acaso entre os dez. Seja X o rendimento do homem e Y o da 
mulher. 

(a) Construa a distribuigao de probabilidade conjunta deX e Y. 

(b) Determine as distributes marginais de X e Y. 

(c) X e Y sao v.a. independentes? Justifique. 

(d) Calcule as medias e variancias de X e Y e a covariancia entre elas. 

(e) Considere a v.a. Z igual a soma dos rendimentos de cada homem e mulher. Calcule 
a media e variancia de Z. 

(f) Supondo que todos os casais tenham a renda de um ano disponfvel, e que se oferece- 
ra ao casal escolhido a possibilidade de comprar uma casa pelo prego de 20, qual a 
probabilidade de que o casal escolhido possa efetuar a compra? 

32. Suponha que realizemos um experimento e os resultados possiveis sejam u> 1 , w 2 , ca y co 4 , <w 5 . 
Definamos as v.a. X e Y cujos valores em cada ponto sao dados na tabela a seguir. 


Resultado 

X 

Y 

"i 

3 

1 

w 2 

2 

2 

"3 

2 

0 

"4 

1 

0 

co s 

3 

2 


Obtenha as distributes de probabilidades de X, Y, X +Y, X-Y - leX-Y, supondo que 
os cinco resultados tenham a mesma probabilidade. Faga um diagrama de dispersao 
para as variaveis X e Y. Idem para X e X + Y. 

33. Numa sala estao cinco criangas cujas idades sao (em anos): 3, 3, 4, 5, 5. Escolhem-se 
tres criangas ao acaso para formar uma trinca. X indica a idade da mais nova da turma, 
e Y a da mais velha. 

(a) Escreva a f.p. conjunta de X eY. 

(b) Calcule E(X)eVar(X). 

(c) Calcule Cov(X,Y). 

(d) CalculeVar(X+Y). 
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34. A distribuigao de notas de certo tipo de teste e normal com p H - 70 e <r H = 10 para os 
homens e p M =65 e c M =8 para as mulheres. Se esse teste for proposto numa classe na 
qual o numero de homens e igual ao dobro do numero de mulheres, qual a porcentagem 
de pessoas que devera obter nota maior que 80? 

35. Se E iX) -fie V ar(X ) -a 2 , escreva em fungao de p e a 2 as seguintes expressoes: 

(a) E(X 2 ) (b) E [X(X - 1)]. 

36. Num estudo sobre rotatividade de mao-de-obra, foram definidas para certa populagao as 
v.a. X = numero de empregos que um funcionario teve no ultimo ano eY = salario. 
Obteve-se a seguinte distribuigao conjunta: 


X 

Y 

1 

2 

3 

4 

800 

0 

0 

0,10 

0,10 

1.200 

0,05 

0,05 

0,10 

0,10 

2.000 

0,05 

0,20 

0,05 

0 

5.000 

0,10 

0,05 

0,05 

0 


Sao dados: E (X ) =2,5, DP(X ) = 1,0, E(Y) =2.120, DP(Y ) =1.505,2. 

(a) Calcule P (X = 2) e P (X = 2|Y = 1.200); X e Y sao independentes? 

(b) Obtenha o coeficiente de correlagao entre X e Y e interprete esse coeficiente para as 
variaveis em estudo. 

37. Uma urna contem tres bolas numeradas 0, 1, 2. Duas bolas sao retiradas ao acaso e 
sucessivamente. Sejam as v.a. X = numero da primeira bola retirada e Y = numero da 
segunda bola retirada. Calcule: 

(a) E(XY) (b) Cov(X,Y) (c) Var(X+Y), 

nos casos em que as bolas sao retiradas (i) com reposigao; (ii) sem reposigao. 

38. Prove as relagoes (8.19) e (8.20) do texto. 

39. Se p(X, Y ) for o coeficiente de correlagao entre X e Y, e se tivermos que Z = A X + B, 
W =CY + D, com A >0, C >0, prove que p(X,Y ) = p(Z, W ). 

40. Uma urna contem n bolas numeradas de 1 ate n. Duas bolas sao retiradas sucessiva¬ 
mente, sem reposigao. Determine a distribuigao do modulo da diferenga entre os dois 
numeros observados. 

41. Suponha queX e Y sejam v.a. com Var(X) =1, Var(Y) =2 ep(X,Y) =1/2. Determine Var(X - 2Y). 

42. Sejam X e Y v.a. com E (X ) = E (Y ) = 0 e Var(X ) =Var(Y ) = 1. Prove que p(Z, U ) = 0, se 
Z=X +Y e U =X - Y. 

43. (a) Prove (8.9) para v.a. X eY continuas. 

(b) Se X ~ N (ju y <7 2 ) e Y ~ N (p 2 , c 2 ), e se X e Y sao independentes, encontre a distribui¬ 
gao, a media e a variancia da v.a. aX + bY, a e b constantes. 

(c) Um fato importante e o seguinte: se X 1( ..., X n sao v.a. normais e independentes, entao 
Xj + ... + X n e uma v.a. normal. Qual e a media e a variancia de X 2 + X 2 + 
+... +X n se cada X ; ~ N [fi., a ^), i = 1,..., n? 
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44. As v.aXeY do Problema 18 sao independentes? Justifique. 

45. Mostre que X e Y do Problema 19 sao independentes. 

46. Se Xj,..., X n sao v.a. independentes, cada X : com media H- e variancia c 2 , i = 1, 2,n, 
calcule E (X ) e Var(X ), com X = (X 1 + ... +X n )/n. 

47. Refaqa o problema anterior para o caso de as v.a. terem todas a mesma media p e a 
mesma variancia a 2 . 


48. Suponha E (X ) =p i; E(Y) =p 2 , Var(X) -a\, Var(Y) -a 2 , Cov(X,Y ) = <r 12 . Entao, o coeficiente 
de correlaqao entre X e Y e dado por 


p(X,Y)=p = ^ 

Afunqao 

f(t) = E [(X - fij +t(Y - /d 2 )] 2 
= E [(X - /J 1 ) 2 + 21 (X - ^(Y - /u 2 ) +t 2 (Y - /u 2 ) 2 ] 

— <7 2 + 2t<7 12 +t 2 <7 2 

e sempre positiva ou nula, quaisquer que sejam os parametros cr 2 , o\ e cr 12 . Sendo urn 
polinomio do segundo grau em t, o seu discriminante deve ser negativo ou nulo, isto e, 

A = 4<t 2 2 - 4 a\a\ s: 0, 


do que decorre 


<^12 V 

O 1 O 2 J 

que implica p 2 =£ 1 e, finalmente, -l^p^l. 

49. Suponha queX~b(n,p)eY~b(m,p), sendo ainda X e Y v.a. independentes. Mostre que 
X+Y~b(m+n;p). 

50. Se X e Y forem v.a. independentes, com distributes de Poisson, com parametros Aj e A 2 , 
respectivamente, mostre que X + Y tera distribuigao de Poisson com parametro 
Ai + A 2 . 





Capitulo 9 


Nogoes de Simulagao 


9.1 Introducao 

* 

Nos capftulos anteriores aprendemos a construir alguns modelos probabilfsticos simples, 
que sao uteis para representar situagoes reais, ou entao para descrever um experimento aleato- 
rio. Notamos, tambem, que se especificarmos um espago amostral e probabilidades asso- 
ciadas aos pontos desse espago, o modelo probabilfstico ficara completamente determinado 
e poderemos, entao, calcular a probabilidade de qualquer evento aleatorio de interesse. 

Muitas vezes, mesmo construindo um modelo probabilfstico, certas questoes nao podem 
ser resolvidas analiticamente e teremos de recorrer a estudos de simulagao para obter aproxi- 
magoes de quantidades de interesse. De modo bastante amplo, estudos de simulagao tentam 
reproduzir num ambiente controlado o que se passa com um problema real. Para nossos 
propositos, a solugao de um problema real consistira na simulagao de variaveis aleatorias. A 
simulagao de variaveis aleatorias deu origem aos chamados metodos Monte Carlo (M MC), 
que, por sua vez, supoem que o pesquisador disponha de um gerador de numeros aleatorios 
equiprovaveis. Um numero aleatorio (NA) representa o valor de uma variavel aleatoria uni- 
formemente distribufda no intervalo (0, 1). Originalmente, esses numeros aleatorios eram 
gerados manualmente ou mecanicamente, usando dados, roletas etc. M odernamente, usa- 
mos computadores para gerar numeros que na realidade sao pseudo-aleatorios. 

Para nossos propositos, uma simulagao pode ser entendida como uma particular 
realizagao do modelo (binomial, normal etc). Nesse sentido, os valores simulados po¬ 
dem ser considerados como uma amostra, como veremos nos capftulos seguintes. Esse 
entendimento sera util para estudar as distribuigoes de estimadores e suas propriedades. 

0 nome M onte Carlo esta relacionado com a cidade de mesmo nome, no Principado de 
Monaco, principalmente devido a roleta, que e um mecanismo simples para gerar numeros 
aleatorios. Os M M C apareceram durante a Segunda Guerra M undial, em pesquisas relacio- 
nadas a difusao aleatoria de neutrons num material radioativo. Os trabalhos pioneiros de- 
vem-se a Ulam, Metropolis, Fermi e von Neumann, por volta de 1948-1949. Alguns traba¬ 
lhos que podem ser consultados sao os artigos de M etropolis e U lam (1949) e von Neumann 
(1951) e os livros de Sobol (1976), Hammersley e Handscomb (1964) e Ross (1997). 
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Para ilustrar, suponha que se queira calcular a area da figura F contida no quadrado 
Q de lado unitario (Figura 9.1). Suponha que sejamos capazes de gerar pontos aleatorios 
em Q, de modo homogeneo, isto e, de modo a cobrir toda a area do quadrado, ou, ainda, 
que esses pontos sejam uniformemente distribuidos sobre Q. Se gerarmos N pontos, 
suponha que N' desses caiam em F. Entao, poderemos aproximar a area de F por N'/N. 
No caso da figura, uma estimativa da area e 24/200, pois geramos 200 pontos em Q e 24 
estao dentro de F. Quanto mais pontos gerarmos, melhor sera a aproximagao. 

Note que o problema em si nao tern nenhuma componente aleatoria: queremos 
calcular a area de uma figura plana. Mas, para resolver o problema, uma possfvel 
maneira foi considerar urn mecanismo aleatorio. Esse procedimento pode ser utilizado 
em muitas situagoes. 

Vejamos algumas maneiras de obter urn numero aleatorio. 



Exemplo 9.1. Lance uma moeda tres vezes e atribua o valor 1 se ocorrer cara e o valor 0 
se ocorrer coroa. Os resultados possfveis sao as sequencias ou numeros binarios abaixo: 

000, 001, 010, Oil, 100, 101, 110, 111. 

Cada urn desses numeros binarios corresponde a urn numero decimal. Por exem¬ 
plo, (111) 2 = (7) 10 , pois (111) 2 = 1 x 2 2 + 1 x 2 1 + 1 x 2° (o fndice indica a base em que 
o numero esta sendo expresso). Veja Morettin et alii (2005). Considere a representagao 
decimal de cada sequencia acima e divida o resultado por 2 3 - 1 = 7. Obteremos os 
numeros aleatorios 0, 1/7, 2/7, ..., 1. Observe que voce podera, eventualmente, consi¬ 
derar a sequencia 111 "menos aleatoria" do que 010, digamos. Mas qualquer uma das 
oito sequences anteriores tern a mesma probabilidade, a saber, 1/2 3 = 1/8. 

Suponha, agora, que voce lance a moeda dez vezes. Teremos numeros binarios 
com dez dfgitos, e cada urn tera probabilidade 1/2 10 = 1/1024. Assim, a sequencia 


1111111111 , 
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formada por "dez uns", parece "menos aleatoria" do que a sequencia 

10 10 10 10 10 , 

formada por "cinco pares de dez", que por sua vez parece "menos aleatoria" do que 
a sequencia 

0 110 1110 0 1 , 

que requer uma descrigao mais elaborada. No entanto, todas elas tern a mesma proba- 
bilidade de ocorrer no experimento acima. Intuitivamente, a aleatoriedade de uma 
sequencia esta ligada a dificuldade de descreve-la em palavras, como fizemos acima. 

Para esse caso de dez langamentos, procederfamos como no caso de tres Ianga- 
mentos, dividindo os 1.024 numeros decimais obtidos por 2 10 - 1 = 1.023, para obter 
1.024 NA entre 0 e 1. De modo geral, langando-se a moeda n vezes, teremos 2 n possi- 
bilidades e os NA finais sao obtidos por meio de divisao por 2 n - 1. 

Exemplo 9.2. Numeros aleatorios tambem podem ser gerados usando-se uma roleta 
como a da Figura 9.2, com dez setores numerados 0, 1, 2, ..., 9. 

Gire a roleta dez vezes e anote os numeros obtidos numa coluna. Faga a mesma 
coisa mais duas vezes, de modo a obter algo como: 


6 

1 

O 

9 

4 

4 

5 

0 

4 

5 

1 

0 

2 

5 

4 

6 

3 

9 

1 

2 

9 

3 

8 

0 

2 

2 

6 

0 

7 

9 


Figura 9.2: Roleta com dez setores. 



Agora, divida cada numero em cada linha por 1.000, para obter os NA 


0,610; 0,944; 0,504; 0,510; 0,254; 0,639; 0,129; 0,380; 0,226; 0,079. 


Para obter NA com quatro casas decimais, basta girar a roleta quatro vezes. Na 
realidade, os numeros acima foram obtidos de uma tabela de numeros aleatorios, 
como aquela da Tabela VII. No exemplo, iniciamos no canto superior esquerdo e 
tomamos as tres primeiras colunas com dez digitos cada. Tabelas de numeros ale- 
atorios sao construfdas por meio de mecanismos como o que descrevemos. O pro- 
blema que enfrentamos muitas vezes e o de gerar uma quantidade muito grande de 
numeros aleatorios, da ordem de 1.000 ou 10.000. O procedimento de simulagao 
manual, usando uma tabela de numeros aleatorios, pode se tornar muito trabalhoso 
ou mesmo impraticavel. 
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A solugao alternativa e substituir a simulagao manual por simulagao por meio de 
computadores, utilizando numeros pseudo-aleatorios, em vez de numeros aleatorios. 

Os numeros pseudo-aleatorios (NPA) sao obtidos por meio de tecnicas que usam 
relagoes matematicas recursivas determinfsticas. Logo, urn NPA gerado numa iteragao 
dependera do numero gerado na iteragao anterior e, portanto, nao sera realmente aleato- 
rio, originando o nome pseudo-aleatorio. 

Ha varios metodos para gerar NPA. Urn dos primeiros, formulado pelo matematico 
John von Neumann, e chamado o metodo de quadrados centrais (veja o Problema 18). 
Urn metodo bastante utilizado em pacotes computacionais e o metodo congruencial, 
discutido nos Problemas 1 e 2. 

Os diversos pacotes aplicativos, estatfsticos ou nao, utilizam metodos como o 
congruencial para implementar sub-rotinas de geragao de NPA. Como exemplos de pa¬ 
cotes, citamos o NAG (Numerical Algorithm Group), atualmente incorporado ao pacote 
MATLAB, eo IMSL. 

0 pacote estatfstico M initab usa os comandos Random e Uniform para gerar NPA. 

Exemplo 9.3. Temos no Quadra 9.1 urn exemplo de geragao de dez NA. 0 comando 
"Random 10 Cl" seguido de "Uniform 0,1" pede para gerar dez NA e guarda-los na 
coluna Cl. 


Quadro 9.1 : Geragao de numeros 
aleatorios. Minitab. 


MTB > RANDOM 10 Cl; 

SUBC > UNIFORM (O, 1). 


Cl 

1 

0.590042 

2 

0.859332 

3 

0.021023 

4 

0.340748 

5 

0.673675 

6 

0.558276 

7 

0.911412 

8 

0.775391 

9 

0.867138 

10 

0.865328 


0 pacote SPIus usa o comando runif(n, min, max), onde neo numero de valores a gerar 
e (min, max) e o intervalo no qual se quer gerar os NPA. No nosso caso, min = 0 e max = 1. 

Exemplo 9.4 0 comando "u < - runif( 10,0,1)" pede para gerar dez NA e guarda-los 
no vetor u. 0 comando "u" imprime os dez valores. Veja o Quadro 9.2. 
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Quadro 9.2: Geragao de numeros aleatorios. SPlus. 


> u <- runif (10, 0, 

1) 



> u 




[1] 0.6931500 

0.8586156 

0.1494293 

0.2947197 

0.3474523 

0.7571899 

0.3016043 

0.3051952 

[9] 0.9135144 

0.7996542 




A planilha Excel usa a fungao ALEATORIO0 para gerar NA, ou entao "Geragao de 
numeros aleatorios", escolhendo a opgao "Analise de Dados" do menu "Ferramentas". 

Exemplo 9.5 0 Quadro 9.3 mostra, na coluna A, o resultado de gerar 20 NA usando 
o Excel. Foi utilizada a opgao Uniforme (0,1). 


Quadro 9.3: Geracao de numeros aleatorios. Excel. 



A 

B 

C 

D 

E 

F 

G 

1 

0.382 

0 

5 

1 

0.77423 

1 

2 

2 

0.100681 

1 

4 

1 

0.91015 

2 

9 

3 

0.596484 

1 

3 

0 

-0.12675 

3 

10 

4 

0.899106 

1 

4 

4 

-1.43943 

4 

6 

5 

0.88461 

1 

6 

0 

1.192723 

5 

7 

6 

0.958464 

1 

5 

1 

-0.89864 

6 


7 

0.014496 

0 

6 

1 

-0.64207 

7 


8 

0.407422 

1 

6 

0 

-1.16122 

8 


9 

0.863247 

0 

3 

0 

0.47886 

9 


10 

0.138585 

1 

5 

3 

0.832001 

10 


11 

0.245033 

1 


1 

1.001472 



12 

0.045473 

0 


0 

0.61513 



13 

0.03238 

0 


2 

1.896733 



14 

0.164129 

1 


3 

-1.25248 



15 

0.219611 

0 


1 

1.308572 



16 

0.01709 



2 

-1,28498 



17 

0.285043 



1 

0.357816 



18 

0.343089 



0 

-0.1679 



19 

0.553636 



2 

1.580393 



20 

0.357372 



1 

0.994548 




_ 

1 . Vejamos o significado da expressao X mod m, na qual X e m sao inteiros nao-negativos. O 
resultado de tal operagao e o resto da divisao de X por m. Ou seja, se X = mq + r, entao X 
mod m =-z r. Por exemplo, 13 mod 4 = 1. 

Encontre 18 mod 5 e 360 mod 100. 

2. O metodo congruencial. No chamado metodo congruencialmultiplicativ o de gerar NPA, come- 
gamos com um valor inicial n_ ( chamado semente, e geramos sucessivos valores rij, n 2 , ... 
por meio da relagao 
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n i+1 =an i mod m, 

sendo n Q , a, m inteiros nao-negativos e i =0,1, 2,m - 1. A constante a e o multiplicador 
elEeo modulo. Por meio da formula acima no maximo m numeros diferentes sao gerados, 
a saber, 0, 1, m - 1. Se h =£ m for o valor de i correspondente ao numero maximo de 
pontos gerados, a partir do qual os valores se repetem, entao h e chamado o ciclo ou o 
per/'odo do gerador. Os NPA sao obtidos por meio de 

ir = 11 / 01 , i =0,1,m - 1. 

Tomemos, por exemplo, a semente n 0 = 17, a = 7 e m = 100. E facil ver que obtemos o 
segu inter 


i 

0 

1 

2 

3 

4 


n. 

17 

19 

33 

31 

17 



Temos, entao, que o ciclo e h = 4, e os valores rt vao se repetir a partir dat. Os correspon- 
dentes NPA gerados serao 


0,17; 0,19; 0,33; 0,31; 0,17; ... 

Devemos escolher a e m de modo a obter ciclos grandes, ou seja, geramos muitos NPA 
antes que eles comecem a se repetir. A selegao de m e normalmente determinada pelo 
numero de "bits" das palavras do computador usado. Atualmente, tomamos por exemplo 
m =2 64 . Para o valor a a sugestao e tomar uma potencia grande de urn numero primo, por 
exemplo, a =7 5 . 

O mefodo congruencial misto usa a formula 

n i+1 = ari + b mod m. 

3. Considere a semente n Q = 13, o multiplicador a = 5 e o modulo m = 100, para gerar dez 
numeros pseudo-aleatorios. Qual o periodo h nesse caso? 

4. Idem, para n 0 = 19, a = 13 e m = 100. 

5. Use algum programa ou planilha computacional para gerar 10.000 numeros pseudo- 
aleatorios. Faqa urn histograma e urn box plot desses valores. Esses graficos corroboram o 
fato de que esses numeros obtidos sao observagoes de uma v.a. com distribuiqao uniforme 
no intervalo (0, 1)? Explique. 

9.2 Simulacao de Variaveis Aleatorias 

De posse de um bom gerador de NA podemos, em prindpio, gerar NA de qualquer 
outra v.a., usando a correspondente fungao de distribuigao acumulada (f.d.a.). Como 
iIustragao, vamos supor uma v.a. continua X, com f.d.a. F(x) mostrada na Figura 9.3. 












9.2 SIMULACAO DE VARIAVEIS ALEATORIAS 


241 


Figure! 9.3: f.d.a. de uma v.a. contfnua X. 


F(x) 



0 


x 


X 


Usando-se um gerador de NA, produz-se um NA u; marca-se esse valor no eixo 
das ordenadas de F(x); por meio da fungao inversa de F(x) obtem-se o valor x da v.a. 
X no eixo das abcissas. Isto e, resolve-se a seguinte equagao 


F(x) = u, 


(9.1) 


ou seja, x = F Mu). Observe a figura para melhor entendimento. 

Na realidade, o procedimento ilustrado acima pode ser formalizado no seguin¬ 
te resultado, chamado de metodo da transformagao integral. Suponha F estrita- 
mente crescente. 

Teorema 9.1 Se X for uma v.a. com f.d.a. F, entao a v.a. U = F(X) tern distribuigao 
uniforme no intervalo [0, 1]. 

Prova Como F e estritamente crescente e u = F(x), entao x = F Mu), pois existe a 
inversa de X. Se G(u) e a f.d.a. de U, temos 


G(u) =P(U « u) = P(F(X ) ^ u) = P (X « F -Mu)) = F(F Mu)) = u, 


o que demonstra o teorema. 

Exemplo 9.6, Considere a v.a. com densidade f(x) = 2x, 0 < x < 1. Temos, 



Na Figura 9.4 temos os graficos de f(x) e F(x). 
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Figura 9.4: F.d.p. e f.d.a. da v.a. X do Exemplo 9.6. 


f(x) 

2 

F(x) 

1 



c 

II 

o 

Cxi 



y \ 

0 

X ' 

o 

x = 0,71 1 x 


Entao, a equagao (9.1) fica u = x 2 . Para obter um valor de X basta gerar um NA u e 
depois gerar x = VTf . Como 0 < x < 1, deve-se tomar a raiz quadrada positiva de u. Por 
exemplo, se u = 0,5, entao F (x) = 0,5 e portanto x = V075 = 0,71, que e um valor 
(numero aleatorio) gerado da v.a. X. 

Para simular dados de uma v.a. discreta, o segredo esta em fazer uma pequena modifica- 
gao no grafico da f.d.a. Considere uma v.a. com a seguinte distribuigao de probabilidades: 


X 

Xi 

X 2 


X„ 

Pi 

Pi 

p 2 


Pn 


A f.d.a dessa v.a. e dada por 


0 , 


F (x) = A 


Pi- 

P! + Pi¬ 


se x < Xj 
se Xj x < x 2 
se x 2 « x < x 3 


1, sexs=x n . 


Os graficos correspondentes estao na Figura 9.5. 


Figura 9.5: F.p. e f.d.a. de uma v.a. discreta. 
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Para usar o procedimento anterior basta alterar o grafico de F (x) acima, do modo 
apresentado na Figura 9.6. 


Figura 9.6: F.d.a. "modificada" para a v.a. discreta X. 


F(x) 

1 


M 

u ( 




^ I 

P1+P2 + P3 

p. 

P1+P2 

_ P2 { 

1 


1 

1 

1 

1 

1 

t 

[ 

1 

1 

: 


X, x 2 

c 3 Xj 

S, x 


Como antes, geramos um NA u entre 0 e 1 e o marcamos no eixo das ordenadas; 
procura-se o inverso de u no eixo das abcissas. Suponha que u esteja entre p 2 + p 2 + ... 
+ p. j e p 2 + p 2 + ... + p. : + p. Segundo a Figura 9.6, vemos que entao obteremos o 
valor x da v.a. X. 

A descrigao acima pode ser resumida no seguinte procedimento: gera-se um NA u, 
ou seja, um valor de uma v.a. U uniforme no intervalo [0, 1], Coloque: 


X = 



x 

j 


se u < Pj, 

sep 1 «u<p 1 + p 2 , 

sepj + ... +p j _ 1 «u <p 1 + ... +pj. 


(9.2) 


Exemplo 9.7 Consideremos a v.a. X com distribuigao 


x 

0 

1 

2 

Pi 

1/4 

1/2 

1/4 


Suponha que ao gerar um NA obtemos u = 0,3. Entao, como p 2 u < p 2 + p 2 , ou 
seja, 0,25 «= u < 0,75, tomamos o valor gerado de X como sendo x = 1. Para obter uma 
amostra de n valores de X basta gerar n numeros aleatorios e proceder para cada um 
deles como acima. Note que poderemos obter valores repetidos de X. 

Na segao 9.3 mostraremos como gerar valores de algumas distribuigoes conhecidas. 
Nem sempre o metodo apresentado e utilizado, pois ha dificuldade em resolver a equa- 
gao (9.1). Os pacotes estatisticos (como o M initab e SPIus) e as planilhas eletronicas 
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(como a do Excel) possuem sub-rotinas proprias para simular valores para varios modelos 
de v.a.'s, tanto discretas como contfnuas. Na segao 9.4 apresentaremos exemplos de uso de 
tais programas. 


6. Gere cinco valores da v.a. X, cuja distribuigao e dada por: 


X 

0 

1 

2 

3 

4 

Pi 

0,1 

0,2 

0,4 

0,2 

0,1 


Use a Tabela VII para gerar os NA. 

7. Gere dez valores da v.a T do Problema 17 do Capitulo 6. 

8. Considere a v.a. X contfnua com f.d.p. 

f( x ) 3x 2 , se -1 x « 0 
1 0, caso contrario. 

Como voce procederia para obter urn valor simulado de X? Se U =0,5, qual sera o valor 
correspondente gerado de X? 

9.3 Simulacao de Alguns Modelos 

Utilizando o que foi estudado nas segoes anteriores, vejamos como podemos si¬ 
mular valores de alguns modelos que ja consideramos anteriormente. 

Exemplo 9.8. Simulagao de uma distribuigao de Bernoulli. 

Suponha que X tenha uma distribuigao de Bernoulli, com P(X = 0) = 1 - p = 0,48 e 
P(X = 1) = p = 0,52. Para gerar valores de tal distribuigao basta gerar NA u e concluir: 
Se u < 0,48, coloque X = 0; 

Se u 5s 0,48, coloque X = 1. 

Por exemplo, suponha que geramos dez NA: 0,11; 0,82; 0,00; 0,43; 0,56; 0,60; 
0,72; 0,42; 0,08; 0,53. Entao, os dez valores gerados da distribuigao em questao sao 0, 
1, 0, 0, 1, 1, 1, 0, 0, 1, respectivamente. 

Exemplo 9.9. Simulagao de uma distribuigao binomial. 

Sabemos que se Y ~ b(n, p), entao Y e o numero de sucessos num experimento de 
Bernoulli, com n repetigoes e probabilidades de sucesso p. Mas P(sucesso) = P(Y = 1) 
= p. No Exemplo 9.8 obtivemos cinco sucessos, logo Y = 5. Portanto, se Y ~ b(10; 
0,52), e queremos, digamos, gerar 20 valores dessa distribuigao, basta considerar 20 
experimentos de Bernoulli, sendo que em cada urn deles repetimos o experimento n = 
10 vezes, com probabilidade de sucesso p = 0,52. Para cada experimento j considera¬ 
mos o numero de sucessos (numero de 1), y jf j = 1, 2, ..., 20. Obteremos, entao, os 20 
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valores simulados y v ..., y 20 da v.a. Y. Observe que esses valores serao inteiros entre 0 
e 20, inclusive esses dois ultimos. 

Exemplo 9.10 Simulagao de uma distribuigao exponencial. 

Se a v.a. T tiver densidade dada por 

f(t) = Up e-w, t > 0, 

a sua f.d.a. e dada por 

F (t) = 1 - e-w, 

logo, temos de resolver a equagao (9.1) para gerar t. 

Tomando logaritmo na base e, temos 

1 - u = e' yp <=> log (1 - u) = -t ip ot = ~p log (1 - u). 

Logo, gerado um NA, um valor da distribuigao Exp(j8) e dado por -p log (1 - u). 
Por exemplo, suponha p = 2 e queremos gerar cinco valores de T ~ Exp(2). Gerados 
os valores u 3 = 0,57, u 2 = 0,19, u 3 = 0,38, u 4 = 0,33, u 5 = 0,31 de uma distribuigao uniforme 
em [0, 1] (os numeros aleatorios), obteremos t 2 = (-2)(log(0,43)) = 1,68, t 2 = (-2)(log(81)) 
= 0,42, t 3 = (-2)(log(0,62)) = 0,96, t 4 = (-2)(log(0,67)) = 0,80, t 5 = (-2)(log(0,69)) = 0,74. 

Podemos reduzir um pouco os calculos se usarmos o seguinte fato: se U ~ U(0,1), entao 
1 - U ~ U(0, 1). Resulta que poderemos gerar os valores de uma exponencial por meio de 

t =-p log (u). 

Usando essa formula para os valores de U acima, obteremos os seguintes valores 
de T : 1,12; 3,32; 1,93; 0,96; 2,34. 

Exemplo 9.11, Simulagao de uma distribuigao normal. 

Ha varios metodos para gerar v.a. normais, mas uma observagao importante e que 
basta gerar uma v.a. normal padrao, pois qualquer outra pode ser obtida desta. De fato, 
gerado um valor z 3 da v.a. Z ~ N (0, 1), para gerar um valor de uma v.a. X ~ N (ju, a 2 ) 
basta usar a transformagao z = (x - /j)la para obter 

x 1 =/j, + c jz v (9.5) 

Vamos dar um exemplo usando a transformagao integral e uma tabela de probabi- 
lidades para a normal padrao. Suponha que X ~ N(10; 0,16), ou seja, n = 10 e o = 0,4. 
Temos de resolver a equagao (9.1), ou seja, 

o(z) = u, 

onde estamos usando a notagao <j>(z) para a f.d.a. da N(0, 1). Vamos gerar, primeira- 
mente, um NA u, usando a Tabela VII. Tomando as tres primeiras colunas e o canto 
inferior esquerdo, obtemos u = 0,230. Entao temos de resolver 


(9.3) 

(9.4) 
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O(z) = 0,230, 

ou seja, temos de encontrar o valor z tal que a area a sua esquerda, sob a curva normal 
padrao, seja 0,230. Veja a Figura 9.7. 


Figure! 9.7: Geragao de um valor z ~ N (0, l). 



Consultando uma tabela para a normal, encontramos que z = -0,74. Logo, o valor 
gerado da normal em questao satisfaz 

x ~ 10 =-0,74, 

0,4 

ou seja, x = 10 + (0,4)(-0,74) = 9,704. Qualquer outro valor pode ser gerado da 
mesma forma. 

Esse metodo, embora simples, nao e pratico, sob o ponto de vista computacional. 
Ha outros metodos mais eficientes. Alguns sao variantes do metodo de Box-Muller 
(1958). Nesse metodo sao geradas duas v.a. Z 1 e Z 2 , independentes, e N (0, 1), por meio 
das transformagoes 


Z 1 =V-2logU 1 cos( 2 tcU 2 ), 
Z 2 =V'-2 logll : sen(27cU 2 ), 


(9.6) 


onde Uj e U 2 sao v.a. com distribuigao uniforme em [0, 1], Portanto, basta gerar dois 
NA Uj e u 2 e depois gerar z x e z 2 usando (9.6). Veja tambem o Problema 22. 


■ jT^nrrriTT^H_ 

9. Gere dez valores de uma distribuigao de Bernoulli, com p = 0,35. 

10. Obtenha dez valores de uma v.a. Y ~ b( 10; 0,2). 

11. Usando o procedimento do Exemplo 9.10, gere dez valores de uma distribuigao exponencial 
com parametro p = 1/2. 

12. Usando o Teorema 9.1, gere: 

(a) cinco valores da v.a. do Exemplo 9.6; 

(b) dez valores de uma distribuigao N (10; 4); 

(c) dez valores de uma distribuigao t de Student com 24 graus de liberdade. 












9.4 EXEMPLOS COMPUTACIONAIS 


247 


13. Simulagao de uma distribuigao qui-quadrado. Como sabemos, se Z ~ N(0, 1) e Y = Z 2 , 
entao Y ~ X 2 (l). Por outro lado, uma v.a. W com distribuigao A 2 (n) pode ser escrita como 

W =Z 1 2 + Z 2 2 + ...+Z n 2 , 

onde as v.a. Z y ..., Z n sao normais padroes, independentes. 

Portanto, para simular urn valor de uma v.a. com distribuigao qui-quadrado, com n graus de 
liberdade, basta gerar n valores de uma v.a. N (0,1) econsiderara soma de seus quadrados. 

14. Gere dez valores de uma distribuigao qui-quadrado com tres graus de liberdade. 

9.4 Exemplos Computacionais 

Nesta segao vamos apresentar alguns exemplos de simulagao de v.a.'s usando os 
pacotes M initab, SPIus e Excel. As tabelas 9.1 e 9.2 trazem as distribuigoes discretas e 
contfnuas, respectivamente, contempladas por cada urn e os comandos apropriados, 
quando pertinentes. 


Tabela 9.1: Opcoes de Distributes Discretas. 


Distribuigao 

Excel (Par.) 

Minitab (Par.) 

SPIus (Par.) 

Bernoulli 

Bernoulli (p) 

Bernoulli (p) 

- 

Binomial 

Binomial (n, p) 

Binomial (n, p) 

binom (n,p) 

Geometrica 

- 

- 

geom (p) 

Hipergeometrica 

- 

- 

hyper (N ,r,k) 

Poisson 

Poisson (A) 

Poisson (A) 

pois (A) 

Discreta 

Discreta 

- 

- 


Comecemos com v.a.'s discretas. Para gerar uma distribuigao de Bernoulli no SPIus 
basta colocar n = 1 no caso binomial. 0 pacote M initab usa o comando Random segui- 
do de urn dos comandos da tabela. 0 pacote SPIus coloca a letra r (de "random") antes do 
comando apropriado. A planilha Excel pode tanto usar a fungao ALEATORIO() como 
a opgao Geragao de numero aleatorio, dentro de Analise de Dados do menu Ferra- 
mentas. Existe uma opgao Discreta para gerar uma distribuigao discreta especificada 
(x.„ Pj), i = 1, ..., k. Vejamos alguns exemplos. 

Exemplo 9.12. Suponha que queiramos simular 20 valores de uma distribuigao binomial, 
com n = 10 e p = 0,6, e 15 valores de uma distribuigao de Poisson, com parametro X = 
2,4, usando o Minitab. Usando os comandos Random, Binomial e Poisson obtemos o 
Quadro 9.4. Os valores simulados sao arquivados nas colunas Cl e C2. 
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Quadro 9.4: Simulacao da binomial e Poisson. Minitab. 


MTB 

> Random 20 Cl; 

MTB 

> Random 15 C2; 

SUBC 

> Binomial 10 0.6. 

SUBC 

> Poisson 2.4. 


Cl 

C2 


Cl 

C2 

1 

6 

1 

11 

6 

1 

2 

5 

2 

12 

7 

1 

3 

7 

1 

13 

7 

1 

4 

7 

2 

14 

5 

2 

5 

4 

2 

15 

7 

2 

6 

8 

1 

16 

6 


7 

6 

3 

17 

4 


8 

5 

2 

18 

6 


9 

5 

3 

19 

5 


10 

6 

1 

20 

7 



Exemplo 9.13, Usando o SPIus, mostramos no Quadro 9.5 as safdas correspondentes 
a simular 20 valores de uma v.a. X ~ b( 10; 0,5) e 20 valores de uma v.a. Y ~ 
Poisson (1,7). 


Quadro 9.5: Simulacao da binomial e Poisson. SPlus. 

> x <-rbinom(20, 10, 0.5) 

> x 

[11 647555576 1 8466765567 

> y <- rpois (20, 1.7) 

>y 

[1[ 12551321223 1 32 1 14230 


Exemplo 9.14. Suponha que queiramos gerar as seguintes distributes, usando o SPIus: 

(a) X ~ b( 10; 0,5); (c) Z ~ U(0,1); 

(b) Y ~ Poisson(l,7); (d) B ~ Bern(0,7). 

Os comandos respectivos estao dados no Quadro 9.6. 

Quadro 9.6: Simulacao de variaveis. SPlus. 

> x < -rbinom(20, 10, 0.5) 

> y < -rpois (20, 1.7) 

> z < -runif (100, 0, 1) 

> b < -rbinom(15, 1, 0.7) 


Os histogramas respectivos estao na Figura 9.8. 
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Figure! 9.8: Histogramas de distributes simuladas no Exemplo 9.14. SPlus. 




x y 
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z 
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b 


Tabela 9.2: Oppoes de Distributes Contlnuas. 


Distributo 

Excel (Par.) 

Minitab (Par.) 

SPlus (Par.) 

Normal 

Normal (0,1) 

Normal (/u, a) 

norm [fi, a) 

Exponencial 

- 

Exponential (/3) 

exp (j8) 

t (Student) 

- 

T (v) 

t (v) 

F (Snedecor) 

- 

F (v,, v 2 ) 

f (v,, V 2 ) 

Gama 

- 

Gamma (a, ft) 

gamma (a, fi] 

Qui-Quadrado 

- 

Chisquare (v) 

chisq (v) 

beta 

- 

Beta (a, ft) 

beta (a, p) 


Vejamos, agora, alguns exemplos para v.a.'s contfnuas. 


Exemplo 9.15. Usando o pacote Minitab, geramos: 

(a) 10 valores de uma N (0, 1); 

(b) 20 valores de uma Exp(2); 

(c) 15 valores de uma X 2 (5). 

Os comandos e respectivos valores simulados estao mostrados no Quadro 9.7. 
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Quadro 9.7: Simula?ao de variaveis. Minitab. 



MTB 

> Random 10 Cl; 

MTB 

> 




SUBC 

> Normal 0 1 


MTB 

> Random 15 C3; 


MTB 

> 


SUBC 

> Chisquare 5. 



MTB 

> Random 20 C2; 

MTB 

> 




SUBC 

> Exponential. 






Cl 

C2 

C3 


Cl 

C2 

C3 

1 

-0.06636 

2.50204 

4.44339 

11 


0.60892 

0.71995 

2 

0.14940 

1.11469 

2.60994 

12 


0.11405 

6.58849 

3 

-0.08339 

1.83977 

9.25374 

13 


4.10192 

5.52644 

4 

0.09516 

0.47726 

1.10399 

14 


3.87223 

2.86108 

5 

-1.08060 

0.60830 

2.31042 

15 


2.59596 

2.87105 

6 

-0.63088 

1.83693 

6.62708 

16 


0.50944 


7 

0.17171 

2.35880 

9.20627 

17 


1.05514 


8 

-1.78075 

1.31646 

1.52421 

18 


3.91126 


9 

1.89407 

4.19729 

4.88943 

19 


1.98810 


10 

0.21054 

1.81575 

3.90302 

20 


3.82243 



Exemplo 9.16. Usando o pacote SPIus, simulamos: 

(a) 500 valores de uma v.a. Z ~ N (0,1); 

(b) 200 valores de uma v.a. Y ~ N(10; 0,3 2 ); 

(c) 500 valores de uma v.a. t(35); 

(d) 500 valores de uma v.a. T ~ Exp(2); 

(e) 300 valores de uma v.a. W ~ X 2 (5)] 

(f) 500 valores de uma v.a. F (10, 12). 

Os comandos necessarios sao mostrados no Quadro 9.8 e os respectivos histogramas 
estao na Figura 9.9. 


Quadro 9.8: Simulagao de variaveis. SPlus. 


> z<-rnorm (500, 0.1) 

> Exp<-rexp (500, 2) 

> hist(z) 

> hist (Exp) 

> y<-rnorm(200,10, 0.3) 

> w<-rchisq (300, 5) 

> hist (y) 

> hist (w) 

> t<-rt(500, 35) 

> f<-rf (500, 10, 12) 

> hist(t) 

> hist (f) 
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Figure! 9.9: Histogramas de algumas distribuipoes geradas no Exemplo 9.16. 




Na planilha Excel a normal pode ser gerada por meio da "opgao normal" no menu 
"Ferramentas (Analise de Dados (Geragao de numeros aleatorios))'' ou pela fungao 
ALEATORIOO e a formula = INV. NORM (ALEATORIO(), /u, a). 

Exemplo 9.17 A coluna E do Quadro 9.3 traz 20 valores gerados de uma N(0, 1) 
usando a ferramenta GNA. 
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15. Usando um pacote de sua preferencia, gere: 

(a) 100 valores de uma distribuigao binomial, com parametros n = 15, p -0,7. 

(b) 500 valores de uma distribuigao de Poisson com parametro A = 1,3. 

Em cada caso, faga um histograma e veja se este corresponde a distribuigao em questao. 

16. Usando um pacote computacional de sua preferencia, gere: 

(a) 500 valores de uma normal padrao; 

(b) 1.000 valores de uma distribuigao qui-quadrado com cinco graus de liberdade; 

(c) 800 valores de uma distribuigao exponencial com parametro 3. 

Em cada caso, faga um histograma, um ramo-e-folhas e um boxplot. Comente. 

17. Usando o metodo de Box-Muller, gere cinco valores de uma distribuigao normal padrao. 

9.5 Problemas e Complementos 

18. O metodo dos quadrados centrais de von Neumann opera do modo descrito a seguir. 
Considere um inteiro n 0 com m dfgitos e seu quadrado rig, que tera 2m dfgitos (eventual- 
mente acrescentando zeros a esquerda). Tome os dfgitos centrais de rig e divida o numero 
obtido por 10 m para se obter um NA, ll 0 , entre 0 e 1. Continue, tomando rij como o 
numero inteiro central desse passo. 

Esse metodo pode nao funcionar bem, como o exemplo abaixo de Kleijnen e van 
Groenendaal (1994) mostra. 

Suponha m = 2 e considere n 0 = 23. Entao, rig = 0529, e o primeiro NA e U 0 = 0,52. 
Agora, rii = 52, n| = 2704 e 14 = 0,70. Sucessivamente, obtemos ll 2 = 0,90, ll 3 = 0,10, 
U 4 = 0,10 etc. Ou seja, a partir de U 4 , os NA se repetem. 

Obtenha numeros aleatorios, com m = 3, usando esse metodo. 

19. Uma distribuigao binomial de parametros n e p pode ser simulada tambem do seguinte 
modo. Considere a recursao 


com Pj = P(X =j),j =0,1.n. 

Chame j o valor atual, pr=P(X=j),F = F(j)=P(X^j)eo algoritmo: 
Pass 0 1. Gere o NA U; 

Passo 2. r =p/(l - p),j = 0, pr = (1 - p) n , F =pr ; 

Passo 3. Se u < F , coloque X =j; 

Passo 4. pr = ——— pr, F =F +pr,j =j +1. 

j + 1 

Passo 5. Volte ao passo 3. 

Usando esse algoritmo, gere cinco valores da v.a. X ~ b(5; 0,3). 








9.5 PROBLEMAS E COMPLEMENTOS 


253 


20. Simulagao de uma distribuigao de Poisson. Se N ~ P (A), entao P (N =j) =p e dada por 


P(N =j)=^-,j=0,1,... 


(9.7) 


A geragao de valores de uma distribuigao de Poisson parte da seguinte relagao recursiva, 
que pode serfacilmente verificada: 


P i+ i = 


J^p., 

+ 1 


0 . 


(9.8) 


Seja, tambem, F(j) =P(N =£ j) a fungao de distribuigao acumulada (f.d.a.) de N . Consi- 
dere j o valor atual gerado e queremos gerar o valor seguinte. Chamemos simplesmente 
p = Pj e F =F (j). Entao o algoritmo para se gerar os sucessivos valores e o seguinte: 

Passo 1. Gere o NA u; 

Passo 2. Faga j = 0, p = e~ A e F = p; 

Passo 3. Se U < F, coloque N =j; 

A 

Passo 4. Faga p = -p, F =F + p e j = j + 1; 

j + 1 

Passo 5. Volte ao Passo 3. 

Note que, no Passo 2, se j =0, P (N =0) = p 0 = e~ A e F (0) = P (N 0) = p 0 . 

21 . Usando o procedimento recursivo do Problema 20, gere cinco valores de uma v.a. com 
distribuigao de Poisson de parametro A = 2. 

22. Transformagao de Box-Muller. Considere as v.a. X e Y, independentes e ambas N(0, 1). 
Observando a Figura 9.10, vemos queR 2= X 2 +Y 2 etg0=Y/X.A densidade con junta de 
XeYe 


f(x, y) = e' (x2+y2)/2 . 

2k 


Figura 9.10: Transformagao de variaveis (x, y) -*■ (R, 6). 



Considere a transformagao de variaveis 


r =x 2 +y 2 
0 = arctg(y/x). 
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Adensidade conjunta de r e 9e obtida usando o resultado (8.28). Temos quex = VFCOS0, y 
= VFsen#e o Jacobiano da transformagao e |J | =1/2. Segue-se que a densidade de r e 9e 

f(r, 9) =l/27i ■ e‘ r2 - 1/2, 0 <r <°°, 0 < 9<2n. 

Dessa relagao podemos concluir que r = R 2 e 0sao independentes, com 

R 2 ~ Exp(2), 0~ U(0, 2n). 

Portanto, podemos escreverque 

X = Rcos0 = V -2log U C05(2nU 2 ) 

Y =Rsen0 = V-2log U 2 sen(27iU 2 ) 

Aqui, usamos o fato de que, se R 2 ~ Exp(2), gerado urn NA U y vem que -21 og U 1 ~ Exp(2) 
e se 9~ U (0, 2k), entao gerado urn NA U 2 , vem que 2^U 2 ~ U(0, 2n). 

23. Usando urn aplicativo estatfstico, gere: 

(a) 100 valores de uma N (5; 0,9) e faga o histograma dos valores gerados. 

(b) 200 valores de uma Exp( 1/2) e faga o histograma dos valores gerados. 

(c) 500 valores de uma Gama(a, fd), com a = /d = 2, e faga o histograma. 

(d) 300 valores de uma X 2 (32) e faga o histograma. 

Os histogramas que voce obteve estao de acordo com as definigoes dadas dessas distri¬ 
butees? Comente. 

24. Usando urn pacote, gere: 

(a) 300 valores de uma distribuigao t( 120). 

(b) 500 valores de uma distribuigao F (56, 38). 

(c) 300 valores de uma distribuiqao B(20, 30). 

Faqa urn histograma dos valores simulados em cada caso e responda a mesma pergunta 
do problema anterior. 

25. Simulaqao de uma distribuiqao gama. Pode-se demonstrar, usando resultados nao estuda- 
dos neste livro, que se a v.a. X ~ Gama(r, (d ), com r inteiro, entao X =Y 1 + Y 2 +... +Y r , onde 
cada Y, ~ Exp(/3) e as v.a. Y, sao independentes. Logo, para gerar urn valor de uma 
distribuigao Gama(r, /3), com r > 0, inteiro, basta gerar r valores de uma distribuigao 
exponencial de parametro fd e depois soma-los. 

26. Simule cinco valores de uma distribuigao Gama (3, 1/2), usando o procedimento des- 
crito no problema anterior. 

27. Simulagao de varias variaveis. E mais complicado simular distribuigoes bidimensionais. 
No caso de X e Y serem independentes, entao 

f(x,y)=f x (x)f Y (y), Vx,y, 

se elas forem continuas, por exemplo. Logo, para gerar urn valor (x, y) da densidade 
conjunta f(x, y), basta gerar o componente X da distribuigao marginal de X e a compo- 
nente y da distribuigao marginal de Y, independentemente. 

No caso de v.a. dependentes, temos que vale a relagao: 

f(x,y) =f x (x)f YIX (y|x). 
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Logo, por essa relagao, primeiramente geramos um valorx da distribuigao marginal de X e 
fixado esse valor, x 0 , digamos, geramos um valor da distribuigao condicional de X, dado 
que X =x 0 . Isso implica que devemos saber como gerar valores das distribuigoes f x (x) 
e f Yl x(yix). 

Vamos nos limitar a dar dois exemplos no caso de v.a. independentes. 


Exemplo 9.18, Distribuigao uniforme bidimensional, 

Na segao 9.1 vimos que para calcular a area da figura F contida no quadrado Q de 
lado unitario (Figura 9.1), consideravamos o quociente N'/N. Como geramos, naquele 
exemplo, os N pontos uniformemente distribufdos sobre Q? Pelo que vimos acima, 
basta gerar valores de v.a. U! ~ U(0, 1) e U 2 ~ U(0, 1), independentemente. Entao, 

P((U 1 , U 2 ) e F) = area(F). 

Ou seja, a v.a. (Ui, U 2 ) e uniformemente distribuida em Q. 

No caso da Figura 9.1, consideramos 200 valores gerados para Ui e U 2 , de modo 
que a area (F) = 24/100. 

Exemplo 9.19, Distribuigao normal bidimensional. 

O metodo de Box-M filler gera valores de duas normais padroes independentes, 

Zj e Z 2 . Logo, se quisermos gerar valores da distribuigao conjunta de X e Y, indepen¬ 
dentes e normais, com X ~ N(/u x , <j x 2 ) e Y ~ N(^ y ~ cr y 2 ), basta considerarmos 

X^x + qZj, Y =^ y + c^Z 2 . 

Na Figura 9.11 temos as curvas de nfveis e o grafico bidimensional obtidos 
gerando-se 10.000 valores cada uma de duas normais padroes independentes. 


Figura 9.11 Distribuigao normal padrao bidimensional gerada. 



28. Usando um pacote computacional, gere: 

(a) 1.000 valores de uma distribuigao uniforme bidimensional no quadrado de lado 
unitario, supondo os componentes independentes; 
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(b) 1.000 valores de uma normal bi-dimensional (X, Y), com X e Y independentes, 
X ~ N(10, 4) eY ~ N(15, 9). 

29. Um time de futebol ira disputar 10 partidas num torneio de classificagao. 

(a) Supondo que sua chance de vitoria em cada jogo e de 60%, simule sua possfvel 
campanha. 

(b) Simule agora se e esperado o seguinte desempenho em cada jogo: 50% de vitoria, 
30% de empate e 20% de derrota. 

(c) Para a situagao descrita em (b), simule 12 possfveis campanhas para o time, e 
estude a variavel X = numero de pontos obtidos (vitoria = 3, empate = 1 e derrota 
= 0 ). 

(d) Proponha outros parametros para o time e repita a questao (c). 

30. Suponha que uma moeda e viciada, de tal sorte que favorega mais cara do que coroa. 
Para estimar a probabilidade de cara, voce a pode langar, digamos, 50 vezes. 

(a) Para simular um possfvel resultado do seu experimento, o que e que seria necessario? 

(b) Supondo que a probabilidade de ocorrer cara e p = 0,6, qual seria a sua simulagao 
e sua estimativa de p? 

(c) Faga a simulagao para 4 outras pessoas e de suas respectivas estimativas. Alguem 
acertou o verdadeiro parametro? 

31. Em uma populagao 20% das pessoas compram o produto C. Seleciona-se, com reposi- 
gao, indivfduos dessa populagao ate encontrar um comprador de C. A variavel X indica 
o numero de indivfduos entrevistados. Qual a distribuigao simulada de X? 

32. Uma pesquisa domiciliar ira entrevistar todos os moradores do domicflio e a distribuigao 
do numero de moradores por domicflio encontra-se abaixo. Sera usada uma amostra de 
5 domicflios: 


N- de moradores 

Porcentagem 

1 

5 

2 

12 

3 

20 

4 

23 

5 

18 

6 

10 

7 

8 

8 

4 


(a) Simule 100 amostras de tamanho 5. 

(b) Considere X = n- medio de pessoas por amostra. Qual a distribuiqao de frequencia 
empfrica deX? 

(c) Construa a distribuigao de X = n- medio de pessoas por amostra. 

(d) Encontre para a populagao o valor pi = n e medio de pessoas, e construa a distribui- 
gao empfrica de X - pi. Como pode ser interpretada essa distribuigao? 

(e) Se o entrevistador recebe 2 u.m. por pessoa entrevistada, usando o resultado (b), 
qual a probabilidade de uma amostra custar mais de 12 u.m.? 
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33. A altura X das pessoas segue aproximadamente uma curva normal com media fi e 

variancia a 2 . 

(a) Proponha dois valores realfsticos para fie o,e gere 10alturas de uma populagao de 
homens. Calcule a media e o desvio padrao desta populagao. 

(b) Com os mesmos parametros gere uma outra amostra de 10 alturas. Olhando e ana- 
lisando as duas amostras elas parecem vir de populagoes distintas? 

(c) Gere uma amostra de 10 alturas de uma populagao feminina. Compare com a 
amostra obtida em (a), e diga se e possivel afirmar que as duas amostras vem de 
populaqoes distintas. 

(d) Como voce acha que os parametros influenciam para diferenciar bem as amostras? 
De exemplos. 
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Capi'tulo 1 0 


Introducao a Inferencia 

t 

Estatistica 


10.1 Introducao 

Vimos, na Parte 1, como resumir descritivamente variaveis associadas a um ou mais 
conjuntos de dados. Na Parte 2, construfmos modelos teoricos (probabilfsticos), identifica- 
dos por parametros, capazes de representar adequadamente o comportamento de algumas 
variaveis. Nesta terceira parte apresentaremos os argumentos estatisticos para fazer afirma- 
goes sobre as caracterfsticas de uma populagao, com base em informagoes dadas por amostras. 

0 uso de informagoes de uma amostra para concluir sobre o todo faz parte da atividade 
diaria da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato 
que ela esta preparando tern ou nao a quantidade adequada de sal. Ou, ainda, quando 
um comprador, apos experimentar um pedago de laranja numa banca de feira, decide se 
vai comprar ou nao as laranjas. Essas sao decisoes baseadas em procedimentos amostrais. 

Nosso objetivo nos capitulos seguintes e procurar dar a conceituagao formal a 
esses principios intuitivos do dia-a-dia para que possam ser utilizados cientificamente 
em situagoes mais complexas. 

10.2 Populaccio e Amostra 

Nos capitulos anteriores, tomamos conhecimento de alguns modelos probabiIfsticos 
que procuram medir a variabilidade de fenomenos casuais de acordo com suas ocor- 
rencias: as distributes de probabilidades de variaveis aleatorias (qualitativas ou quan- 
titativas). Na pratica, frequentemente o pesquisador tern alguma ideia sobre a forma da 
distribuigao, mas nao dos valores exatos dos parametros que a especificam. 

Por exemplo, parece razoavel supor que a distribuigao das alturas dos brasileiros adul- 
tos possa ser representada por um modelo normal (embora as alturas nao possam assumir 
valores negativos). Mas essa afirmagao nao e suficiente para determinar qual a distribuigao 
normal correspondente; precisariamos conhecer os parametros (media e variancia) des- 
sa normal para que ela ficasse completamente especificada. 0 proposito do pesquisador 
seria, entao, descobrir (estimar) os parametros da distribuigao para sua posterior utilizagao. 
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Se pudessemos medir as alturas de todos os brasileiros adultos, terfamos meios 
de obter sua distribuigao exata e, daf, produzir os correspondentes parametros. Mas 
nessa situagao nao terfamos necessidade de usar a inferencia estatfstica! 

Raramente se consegue obter a distribuigao exata de alguma variavel, ou porque 
isso e muito dispendioso, ou muito demorado ou as vezes porque consiste num pro- 
cesso destrutivo. Por exemplo, se estivessemos observando a durabilidade de lampa- 
das e testassemos todas ate queimarem, nao restaria nenhuma para ser vendida. Assim, 
a solugao e selecionar parte dos elementos (amostra), analisa-la e inferir propriedades 
para o todo (populagao). 

Outras vezes estamos interessados em explorar relagoes entre variaveis envolven- 
do experimentos mais complexos, para a obtengao dos dados. Por exemplo, gostarfa- 
mos de obter resposta para a seguinte indagagao: a altura que urn produto e colocado 
na gondola de urn supermercado afeta a sua venda? Observe que para responder a 
questao precisamos obter dados de vendas com o produto oferecido em diferentes 
alturas, e que essas vendas sejam controladas para evitar interferences de outros fato- 
res que nao a altura. Nesse caso nao existe claramente urn conjunto de todos os ele¬ 
mentos para os quais pudessemos encontrar os parametros populacionais. Recorrer a 
modelos para descrever o todo (populagao) facilita a identificagao e solugao do pro- 
blema. Nesse exemplo, supondo que as vendas V h do produto oferecido na altura h (h = 1 
representando baixo, h = 2 representando meio e h = 3 representando alto) segue uma 
distribuigao proxima a normal, ou seja, V h ~ N(/x h , o 2 ), o nosso problema passa a ser o 
de verificar, por meio de dados coletados do experimento (amostra), se existe eviden¬ 
ce de igualdade das medias n v n 2 e ^ 3 . Note que, em nossa formulagao do problema, 
supusemos que as tres situagoes de alturas resultam observagoes com a mesma variancia 
<7 2 . Essa suposigao poderia ser modificada. 

Solugoes de questoes como as apresentadas acima sao o objeto da inferencia estatfstica. 

Dois conceitos basicos sao, portanto, necessarios para o desenvolvimento da 
Inferencia Estatfstica: populagao e amostra. 

Definigao Populagao e o conjunto de todos os elementos ou resultados sob investiga- 
gao. Amostra e qualquer subconjunto da populagao. 

Vejamos outros exemplos para melhor entender essas definigoes. 

Exemplo 10.1, Consideremos uma pesquisa para estudar os salarios dos 500 funcio- 
narios da Companhia MB. Seleciona-se uma amostra de 36 indivfduos, e anotam-se 
os seus sal ari os. A variavel aleatoria a ser observada e "salario”. A populagao e 
formada pelos 500 funcionarios da companhia. A amostra e constitufda pelos 36 
indivfduos selecionados. Na realidade, estamos interessados nos sal ari os, portanto, 
para sermos mais precisos, devemos considerar como a populagao os 500 sal ari os 
correspondentes aos 500 fund onari os. Consequentemente, a amostra sera formada 
pelos 36 sal ari os dos indivfduos selecionados. Podemos estudar a di stri bui gao dos 
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salarios na amostra, e esperamos que esta reflita a distribuigao de todos os salarios, 
desde que a amostra tenha sido escolhida com cuidado. 

Exemplo 10.2. Queremos estudar a proporgao de individuos na cidade A que sao 
favoraveis a certo projeto governamental. Uma amostra de 200 pessoas e sorteada, e a 
opiniao de cada uma e registrada como sendo a favor ou contra o projeto. A populagao 
consiste de todos os moradores da cidade, e a amostra e formada pelas 200 pessoas 
selecionadas. Podemos, como foi visto no Capftulo 5, definir a variavel X, que toma o 
valor 1, se a resposta de urn morador for favoravel, e o valor 0, se a resposta for 
contraria ao projeto. Assim, nossa populagao pode ser reduzida a distribuigao de X, e 
a amostra sera constituida de uma sequencia de 200 zeros e uns. 

Exemplo 10.3. O interesse e investigar a duragao de vida de urn novo tipo de lampada, 
pois acreditamos que ela tenha uma duragao maior do que as fabricadas atualmente. 
Entao, 100 lampadas do novo tipo sao deixadas acesas ate queimarem. A duragao em 
horas de cada lampada e registrada. Aqui, a variavel e a duragao em horas de cada 
lampada. A populagao e formada por todas as lampadas fabricadas ou que venham a ser 
fabricadas por essa empresa, com o mesmo processo. A amostra e formada pelas 100 
lampadas selecionadas. Note-se que nesse caso nao podemos observar a populagao, ou 
seja, a distribuigao da duragao de vida das lampadas na populagao, pois isso corresponded a 
a queimar todas as lampadas. Assim, em alguns casos, nao podemos observar a popula¬ 
gao toda, pois isso significaria danificar (ou destruir) todos os elementos da populagao. 
Esse problema geralmente e contornado atribuindo-se urn modelo teorico para a distri¬ 
buigao da variavel populacional. 

Exemplo 10.4. Em alguns casos, fazemos suposigoes mais precisas sobre a populagao 
(ou sobre a variavel definida para os elementos da populagao). Digamos que X represen¬ 
te o peso real de pacotes de cafe, enchidos automaticamente por uma maquina. Sabe-se 
que a distribuigao de X pode ser representada por uma normal, com parametros /j. e a 2 
desconhecidos. Sorteamos 100 pacotes e medimos seus pesos. A populagao sera o con- 
junto de todos os pacotes enchidos ou que virao a ser enchidos pela maquina, e que 
pode ser suposta como normal. A amostra sera formada pelas 100 medidas obtidas dos 
pacotes selecionados, que pode ser pensada como constituida de 100 observagoes feitas 
de uma distribuigao normal. Veremos mais adiante como tal amostra pode ser obtida. 

Exemplo 10.5. Para investigar a "honestidade" de uma moeda, nos a langamos 50 vezes 
e contamos o numero de caras observadas. A populagao, como no caso do Exemplo 
10.2, pode ser considerada como tendo a distribuigao da variavel X, assumindo o valor 
1, com probabilidade p, se ocorrer cara, e assumindo o valor 0, com probabilidade 1 - p, 
se ocorrer coroa. Ou seja, a populagao pode ser considerada como tendo distribuigao de 
Bernoulli com parametro p. A variavel ficara completamente especificada quando co- 
nhecermos p. A amostra sera uma sequencia de 50 numeros zeros ou uns. 
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Exemplo 10.6 Ha razoes para supor que o tempo Y de reagao a certo estfmulo visual depen- 
da da idade do individuo (esse exemplo sera usado nos Capftulos 15 e 16). Suponha, ainda, 
que essa dependence seja linear. Para verificarmos se essa suposigao e verdadeira, obtive- 
ram-se 20 dados da seguinte maneira: 20 pessoas foram selecionadas, sendo 10 homens e 10 
mulheres. Dentro de cada grupo de homens e mulheres foram selecionadas duas pessoas das 
seguintes faixas de idade: 20, 25, 30, 35 e 40 anos. Cada pessoa foi submetida ao teste e seu 
tempo de reagao y foi medido. A populagao poderia ser considerada como formada por todas 
aquelas pessoas que viessem a ser submetidas ao teste, segundo o sexo e a idade. A amostra 
e formada pelas 20 medidas, que estao apresentadas na Tabela 15.1. 

0 bservagoes: 

(i) Os tres ultimos exemplos mostram uma ampliagao do conceito definido de populagao, 
ou seja, designamos agora a populagao como sendo a fungao probabilidade ou fun¬ 
gao densidade de probabilidade de uma v.a. X, modelando a caracteristica de interesse. 
Esse artificio simplifica substancialmente o problema estatfstico, exigindo no entanto 
uma proposta de modelo para a variavel X. Nesses casos simplificaremos a lingua- 
gem, dizendo: "seja a populagao f(x)". Por exemplo, "considere a populagao das 
alturas X ~ N (ju, a 2 )". 

(ii) Essa abordagem, por meio da distribuigao de probabilidades, utiliza muitas vezes o 
conceito de populagao infinita contfnua, exigindo urn tratamento matematico mais 
cuidadoso. E mais facil apresentar os problemas e solugoes por meio de populagoes 
finitas. E o que faremos muitas vezes. Entretanto, e importante que o estudante aprenda 
a trabalhar com o conceito de modelo, explorando o caso de "populagao f(x)". 

10.3 Problemas de Inferencia 

Como ja dissemos anteriormente, o objetivo da Inferencia Estatfstica e produzir 
afirmagoes sobre dada caracteristica da populagao, na qual estamos interessados, a 
partir de informagoes colhidas de uma parte dessa populagao. Essa caracteristica na 
populagao pode ser representada por uma variavel aleatoria. Se tivessemos informa¬ 
gao completa sobre a fungao de probabilidade, no caso discrete, ou sobre a fungao 
densidade de probabilidade, no caso continuo, da variavel em questao, nao terfamos 
necessidade de escolher uma amostra. Toda a informagao desejada seria obtida por 
meio da distribuigao da variavel, usando-se a teoria estudada anteriormente. 

Mas isso raramente acontece. Ou nao temos qualquer informagao a respeito da 
variavel, ou ela e apenas parcial. Podemos admitir, como no exemplo das alturas de 
brasileiros adultos, que ela siga uma distribuigao normal, mas desconhecemos os 
parametros que a caracterizam (media, variancia). Em outros casos, podemos ter uma 
ideia desses parametros, mas desconhecemos a forma da curva. Ou ainda, o que e 
muito frequente, nao possufmos informagoes nem sobre os parametros, nem sobre 
a forma da curva. Em todos os casos, o uso de uma amostra nos ajudaria a formar uma 
opiniao sobre o comportamento da variavel (populagao). 
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Embora a identificagao e a descrigao da populagao sejam fundamentals no proces- 
so inferencial, e comum os pesquisadores dedicarem mais atengao em descrever a 
amostra do que a populagao para a qual serao feitas as afirmagoes. E imprescindlvel 
que se explicite claramente a populagao investigada. 

Neste livro estaremos mais preocupados em trabalhar com populagoes descritas 
por modelos do que com populagoes finitas identificadas por elementos portadores de 
uma caracterlstica de interesse. Portanto, na maioria das vezes, iremos nos referir a "po¬ 
pulagao X", significando que a variavel de interesse X, definida sobre a populagao- 
alvo, segue uma distribuigao f(x). Nosso problema de interesse passaria a ser o de 
fazer afirmagoes sobre a forma da curva e seus parametros. 

Alguns exemplos simples nos darao uma nogao dos tipos de formulagoes e proble- 
mas que a inferencia estatfstica pode nos ajudar a resolver. 

Exemplo 10.5. (continuagao) Voltemos ao exemplo da moeda. Indicando por X o nu- 
mero de caras obtidas depois de langar a moeda 50 vezes, sabemos que, se tornados 
alguns cuidados quando do langamento, X segue uma distribuigao binomial, ou seja, 
X ~ b(50, p). Esse modelo e valido, admitindo-se ou nao a "honestidade" da moeda, isto 
e, sendo ou nao p = 1/2. Langada a moeda, vamos supor que tenham ocorrido 36 caras. 
Esse resultado traz evidencia de que a moeda seja "honesta"? Para tomarmos uma 
decisao, podemos partir do princfpio de que a moeda nao favorece nem cara nem 
coroa, isto e, p = 1/2. Com essa informagao e com o modelo binomial, podemos 
encontrar qual a probabilidade de se obterem 36 caras ou mais, e esse resultado nos 
ajudaria a tomar uma decisao. Suponha que a decisao foi rejeitar a "honestidade" da 
moeda: qual e a melhor estimativa para p, baseando-se no resultado observado? 

Descrevemos ai os dois problemas basicos da Inferencia Estatfstica: o primeiro e 
chamado teste de hipoteses, e o segundo, estimagao. Nos capftulos seguintes, esses 
problemas serao abordados com mais detalhes. 

Exemplo 10.4. (continuagao) As vezes, o modelo teorico associado ao problema nao 
e tao evidente. No caso da maquina de encher pacotes de cafe automaticamente, diga- 
mos que ela esteja regulada para enche-los segundo uma distribuigao normal com 
media 500 gramas e desvio padrao de 100 gramas, isto e, X ~ N (500, 20 2 ). Sabemos 
tambem que, as vezes, a maquina desregula-se e, quando isso acontece, o unico 
parametro que se altera e a media, permanecendo a mesma variancia. Para manter a 
produgao sob controle, iremos colher uma amostra de 100 pacotes e pesa-los. Como 
essa amostra nos ajudara a tomar uma decisao? Parece razoavel, nesse caso, usarmos 
a media x da amostra como informagao pertinente para uma decisao. M esmo que a 
maquina esteja regulada, dificilmente x sera igual a 500 gramas, dado que os pacotes 
apresentam certa variabilidade no peso. Mas se x nao se afastar muito de 500 gramas, 
nao existirao razoes para suspeitarmos da qualidade do procedimento de produgao. So 
iremos pedir uma revisao se x - 500, em valor absoluto, for "muito grande". 
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0 problema que se apresenta agora e o de decidir o que e proximo ou distante de 500 
gramas. Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido 
urn numero muito grande de vezes, sob a condigao de a maquina estar regulada, teria- 
mos ideia do comportamento da v.a. x , e saberiamos dizer se aquele valor observado e 
ou nao urn evento raro de ocorrer. Caso o seja, e mais facil suspeitar da regulagem da 
maquina do que do acaso. 

Vemos, entao, a importance nesse caso de se conhecer as propriedades da distri- 
buigao da variavel x. 

Exemplo 10.6. (continuagao) A descrigao matematica da v.a. Y: tempo de reagao ao 
estimulo e urn pouco mais complexa. Podemos supor que esse tempo, para uma dada 
idade x, seja uma v.a. com distribuigao normal, com media dependendo da idade x, ou 
seja, podemos escrever 

Y ~ N (ju(x), a 2 ). 

A linearidade expressa no problema pode ser inclufda na media /u(x) da seguinte maneira: 

ju(x) = a + /3x. 

Voltaremos a esse modelo no Capftulo 16. Outra maneira de escrever as duas 
relagoes anteriores e 

Y I x ~ N(a + /?x; a 2 ). 

Leia-se "Y dado x". 

Podemos, por exemplo, estimar os parametros a e /?, baseados na amostra de 
20 dados. Ou podemos querer investigar a possibilidade de p ser igual a zero, 
significando que a idade nao afeta o tempo de reagao. Novamente, os dois princi¬ 
pals problemas de inferencia aparecem aqui: estimagao e teste de uma hipotese. 
Urn outro problema importante em inferencia e o de previsao. Por exemplo, consi- 
derando urn grupo de pessoas de 40 anos, poderemos prever com o modelo acima 
qual sera o respectivo tempo de reagao. 

Repetir urn mesmo experimento muitas vezes, sob as mesmas condigoes, nem 
sempre e possfvel, mas em determinadas condigoes e possfvel determinar teoricamen- 
te o comportamento de algumas medidas feitas na amostra, como por exemplo a me¬ 
dia. Mas isso depende, em grande parte, do procedimento (piano) adotado para selecio- 
nar a amostra. Assim, em problemas envolvendo amostras, antes de tomarmos uma 
decisao, terfamos de responder a quatro perguntas: 

(a) Qual a populagao a ser amostrada? 

(b) Como obter os dados (a amostra)? 

(c) Que informagoes pertinentes (estatfsticas) serao retiradas da amostra? 

(d) Como se comporta(m) a(s) estatfstica(s) quando o mesmo procedimento de esco- 
Iher a amostra e usado numa populagao conhecida? 

Nas segoes e capitulos subsequentes tentaremos responder a essas perguntas. 
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10.4 Como Selecionar uma Amosfra 

As observagoes contidas em uma amostra sao tanto mais informativas sobre a popula¬ 
gao quanto mais conhecimento explfcito ou implfcito tivermos dessa mesma populagao. 
Por exemplo, a analise da quantidade de globulos brancos obtida de algumas gotas de 
sangue da ponta do dedo de urn paciente dara uma ideia geral da quantidade dos globulos 
brancos no corpo todo, pois sabe-se que a distribuigao dos globulos brancos e homoge- 
nea, e de qualquer lugar que se tivesse retirado a amostra ela seria "representative". Mas 
nem sempre a escolha de uma amostra adequada e imediata. Por exemplo, voltando ao 
Exemplo 10.2, para o qual querfamos obter uma amostra de habitantes para saber a opi- 
niao sobre urn projeto governamental, escolhendo intencionalmente uma amostra de 200 
indivlduos moradores de certa regiao beneficiada pelo projeto, saberemos de antemao 
que o resultado contera urn vies de selegao. Isto e, na amostra, a proporgao de pessoas 
favoraveis ao projeto devera ser maior do que no todo, donde a importance da adogao de 
procedimentos cientificos que permitam fazer inferences adequadas sobre a populagao. 

A maneira de se obter a amostra e tao importante, e existem tantos modos de faze-lo, 
que esses procedimentos constituem especialidades dentro da Estatfstica, sendo Amostragem 
e Planejamento de Experimentos as duas mais conhecidas. Poderfamos dividir os procedi¬ 
mentos cientificos de obtengao de dados amostrais em tres grandes grupos: 

(a) Levantamentos Amostrais, nos quais a amostra e obtida de uma populagao bem definida, 
por meio de processos bem protocolados e controlados pelo pesquisador. Podemos, ainda, 
subdividi-los em dois subgrupos: levantamentos probabiIisticos e nao-probabiIisticos. O 
primeiro reune todas aquelas tecnicas que usam mecanismos aleatorios de selegao dos 
elementos de uma amostra, atribuindo a cada urn deles uma probabi I idade, conhecida a 
priori, de pertencer a amostra. No segundo grupo estao os demais procedimentos, tais 
como: amostras intencionais, nas quais os elementos sao selecionados com o auxflio de 
especialistas, e amostras de voluntaries, como ocorre em alguns testes sobre novos medi- 
camentos e vacinas. Ambos os procedimentos tern suas vantagens e desvantagens. A 
grande vantagem das amostras probabilisticas e medir a precisao da amostra obtida, 
baseando-se no resultado contido na propria amostra. Tais medidas ja sao bem mais 
dificeis para os procedimentos do segundo grupo. 

Estao nessa situagao os Exemplos 10.1 (conhecer os salarios da Cia. MB), 10.2 (identificar 
a proporgao de indivfduos favoraveis ao projeto), 10.4 (pesos dos pacotes de cafe) etc. 

(b) Planejamento de Experimentos, cujo principal objetivo e o de analisar o efeito de uma 
variavel sobre outra. Requer, portanto, interferences do pesquisador sobre o ambiente 
em estudo (populagao), bem como o controle de fatores externos, com o intuito de 
medir o efeito desejado. Podemos citar como exemplos aquele ja citado sobre a altura 
de urn produto na gondola de urn supermercado afetar as vendas e o Exemplo 10.6. 
Em ensaios clinicos em medicina, esse tipo de estudo e bastante usado, como por 
exemplo para testar se urn novo medicamento e eficaz ou nao para curar certa doenga. 

(c) Levantamentos Observacionais: aqui, os dados sao coletados sem que o pesquisador 
tenha controle sobre as informagoes obtidas, exceto eventualmente sobre possfveis 
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erros grosseiros. As series de dados temporais sao exemplos tfpicos desses levanta- 
mentos. Por exemplo, queremos prever as vendas de uma empresa em fungao de ven- 
das passadas. 0 pesquisador nao pode selecionar dados, esses sao as vendas efetiva- 
mente ocorridas. Nesses casos, a especificagao de um modelo desempenha um papel 
crucial na ligagao entre dados e populagao. 

No caso de uma serie temporal, o modelo subjacente e o de processo estocastico; pode- 
mos pensar que a serie efetivamente observada e uma das infinitas possiveis realizagoes 
desse processo. A populagao hipotetica aqui seria o conjunto de todas essas realizagoes, e a 
serie observada seria a amostra. Veja Morettin eToloi (2006) para mais informagoes. 

Neste livro iremos nos concentrar principalmente em levantamentos amostrais e, mais 
ainda, num caso simples de amostragem probabilistica, a amostragem aleatoria simples, 
com reposigao, a ser designada por AAS. 0 leitor podera consultar Bussab e Bolfarine 
(2005) para obter mais detalhes sobre outros procedimentos amostrais. Um breve resumo 
sobre alguns pianos e dado no Problema 37. Nogoes sobre planejamento de experimentos 
podem ser vistas em Peres e Saldiva (1982). 


1. De sua opiniao sobre os tipos de problemas que surgiriam nos seguintes pianos amostrais: 

(a) Para investigar a proporgao dos operarios de uma fabrica favoraveis a mudanga do 
infcio das atividades das 7h para as 7h30, decidiu-se entrevistar os 30 primeiros ope- 
rarios que chegassem a fabrica na quarta-feira. 

(b) Mesmo procedimento, so que o objetivo e estimar a altura media dos operarios. 

(c) Para estimar a porcentagem media da receita municipal investida em lazer, enviaram- 
se questionarios a todas as prefeituras, e a amostra foi formada pelas prefeituras que 
enviaram as respostas. 

(d) Para verificar o fato de oferecer brindes nas vendas de sabao em po, tomaram-se 
quatro supermercados na zona sul e quatro na zona norte de uma cidade. Nas quatro 
lojas da zona sul, o produto era vendido com brinde, enquanto nas outras quatro era 
vendido sem brinde. No fim do mes, compararam-se as vendas da zona sul com as da 
zona norte. 

2. Refazer o Problema 7 do Capitulo 8. 

10.5 Amostragem Aleatoria Simples 

A amostragem aleatoria simples e a maneira mais facil para selecionarmos uma amos¬ 
tra probabi1 1 stica de uma populagao. Alem disso, o conhecimento adquirido com esse 
procedimento servira de base para o aprendizado e desenvolvimento de outros procedi¬ 
mentos amostrais, planejamento de experimentos, estudos observacionais etc. Comece- 
mos introduzindo o conceito deAAS de uma populagao finita, para a qual temos uma 
listagem de todas as N unidades elementares. Podemos obter uma amostra nessas condi- 
goes, escrevendo cada elemento da populagao num cartao, misturando-os numa uma e 
sorteando tantos cartoes quantos desejarmos na amostra. Esse procedimento torna-se 
inviavel quando a populagao e muito grande. Nesse caso, usa-se um processo alternative, 
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no qual os elementos sao numerados e em seguida sorteados por meio de uma tabela de 
numeros aleatorios (veja a sua utiIizagao em Problemas e Complementos) ou por meio 
do uso de computadores, que podem gerar numeros aleatorios (veja o Capitulo 9). 

Utilizando-se urn procedimento aleatorio, sorteia-se urn elemento da populagao, 
sendo que todos os elementos tern a mesma probabilidade de ser selecionados. Repe- 
te-se o procedimento ate que sejam sorteadas as n unidades da amostra. 

Podemos ter uma AAS com reposigao, se for permitido que uma unidade possa ser 
sorteada mais de uma vez, e sem reposigao, se a unidade sorteada for removida da 
populagao. 

Do ponto de vista da quantidade de informagao contida na amostra, amostrar sem 
reposigao e mais adequado. Contudo, a amostragem com reposigao conduz a urn tra- 
tamento teorico mais simples, pois ela implica que tenhamos independence entre as 
unidades selecionadas. Essa independence facilita o desenvolvimento das proprieda- 
des dos estimadores que serao considerados. 

Portanto, para o restante do livro, o piano amostral considerado sera o de amostragem 
aleatoria simples com reposigao, que denotaremos simplesmente por AAS. 

Vejamos com algum detalhe o significado mais preciso de uma amostra. 

Exemplo 10.7. Considere o Problema 2 acima, em que colhemos todas as amostras possf- 
veis de tamanho 2, com reposigao, da populagao {1, 3, 5, 5, 7}. Defina a variavel X: valor 
assumido pelo elemento na populagao. Entao, a distribuigao de X e dada pela Tabela 10.1. 


Tabela 10.1 : Distribuigao da v.a. X para o Problema 2. 


X 

1 

3 

5 

7 

P (X =x) 

1/5 

1/5 

2/5 

1/5 


Indicando por X 2 o numero selecionado na primeira extragao e por X 2 o numero 
selecionado na segunda extragao, vimos que era possfvel escrever a distribuigao con- 
junta do par (Xj, X 2 ). Veja tambem a Tabela 10.2. Alem disso, as distribuigoes margi¬ 
nals de Xj e X 2 sao independentes e iguais a distribuigao de X. Desse modo, cada uma 
das 25 possiveis amostras de tamanho 2 que podemos extrair dessa populagao 
corresponde a observar uma particular realizagao da v.a. (X 2 , X 2 ), com X : e X 2 indepen¬ 
dentes e P(Xj = x) = P(X 2 = x) = P(X = x), para todo x. Essa e a caracterizagao de 
amostra casual simples que iremos usar neste livro. 

Definigao. Uma amostra aleatoria simples de tamanho n de uma variavel aleatoria X, 
com dada distribuigao, e o conjunto de n variaveis aleatorias independentes X 1( X 2 , ..., X n , 
cada uma com a mesma distribuigao de X. 

Ou seja, a amostra sera a n-upla ordenada (X 2 , X 2 ,..., X n ), onde Xi indica a observagao 
do i-esimo elemento sorteado. 
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Quando a populagao e caracterizada por uma distribuigao de probabilidades, o 
modo mais simples para sortear uma AAS e usar os procedimentos de simulagao estu- 
dados no Capitulo 9. 0 processo de simular uma observagao de uma distribuigao 
especificada por seus parametros nada mais e do que retirar uma AAS de tamanho urn 
da populagao. Desse modo, para retirar uma AAS (com reposigao) de n indivfduos da 
populagao X, basta gerar n numeros aleatorios independentes dessa distribuigao. 

Exemplo 10.8 Vamos retirar uma AAS de 5 alturas (em cm) de uma populagao de 
mulheres cujas alturas X seguem a distribuigao N(167; 25). 

Usando-se, por exemplo, o gerador de numeros aleatorios do Excel, fornecendo 
os parametros /u = 167 e a = 5, alem do tamanho da amostra n = 5, obtemos os valores: 

Xj = 165, x 2 = 161, x 3 = 168, x 4 = 173, x 5 = 173. 

Note que, se voce for gerar uma tal amostra, podera obter valores diferentes desses. 
Observe, tambem, que o primeiro elemento a ser observado pode ser qualquer valor da 
populagao simulada N(167; 25). Desse modo, indicando por X 2 o valor observado 
na primeira extragao, conclufmos que X 2 ~ N(167; 25). Como a geragao do segundo 
numero aleatorio e feita independentemente do segundo, resulta que a v.a. X 2 , valor 
observado na segunda extragao, tambem segue uma distribuigao N(167; 25), e assim 
por diante. 

Diante do exposto, vemos que continua valida a definigao de AAS dada acima, 
quando a amostra e retirada de uma populagao referenciada pela sua distribuigao de 
probabilidades. 

No caso de uma populagao X continua, com f.d.p. f (x), a f.d.p. conjunta da amos¬ 
tra (X 1( X 2 , ..., X n ), segundo o que vimos no Capitulo 8, sera dada por 

f(x lP x 2 .x n ) = f 1 (x 1 )f 2 (x 2 ) ... f n (x n ), 

onde fj(Xi) denota a distribuigao (marginal) de X i( i = 1, ..., n. 

Antes de prosseguirmos, seria interessante fazer uma comparagao da inferencia 
estatistica com o processo de simulagao da populagao. 

Podemos imaginar que qualquer caracteristica X de interesse seja produzida por 
urn "programa" (modelo) de gerador de numeros aleatorios, e que somente o "pro- 
prietario" (natureza) desse programa e que conhece a forma da distribuigao de X, os 
valores dos parametros etc. relacionados ao programa. Quando "obtemos" a amos¬ 
tra, estamos apenas observando o resultado da simulagao, nao conhecemos nada do 
processo gerador dos dados. 0 objetivo da inferencia estatistica e fornecer criterios 
para nos ajudar a descobrir a forma da distribuigao el ou parametros usados pelo 
"proprietary". Bons indicadores desses valores nos ajudam a entender melhor os 
fenomenos e fazer previsoes para futuras observagoes. 
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Daqui para frente, a menos que esteja especificada de outra maneira, sempre que 
mencionarmos a palavra amostra, estaremos entendendo a amostra obtida pelo pro- 
cesso probabi I istico A AS, ou seja, o vetor aleatorio (X lf X 2 , X n ) definido acima. 


3. A distribuigao do numero de filhos, por fanmlia, de uma zona rural esta no quadro abaixo. 


N 2 de filhos 

Porcentagem 

0 

10 

1 

20 

2 

30 

3 

25 

4 

15 

Total 

100 


(a) Sugira um procedimento para sortear uma observagao ao acaso dessa populagao. 

(b) De, na forma de uma tabela de dupla entrada, as possfveis amostras do numero de filhos 
de duas famflias que podem ser sorteadas e as respectivas probabilidades de ocorrencia. 

(c) Se fosse escolhida uma amostra de tamanho 4, qual seria a probabilidade de se 
observara quadrupla ordenada (2, 3, 3,1)? 

10.6 Estatisticas e Parametros 

Obtida uma amostra, muitas vezes desejamos usa-la para produzir alguma caracte- 
ristica especifica. Por exemplo, se quisermos calcular a media da amostra (X lf X 2 , ..., 
X n ), esta sera dada por 

X = ^-{X 1 + X 2 +...+X n }. 

E facil verificar que X e tambem uma variavel aleatoria. Podemos tambem estar 
interessados em qualquer outra caracteristica da amostra, que sera sempre uma fungao 
do vetor aleatorio (X lf ..., X n ). 

Definigao Uma estatistica e uma caracteristica da amostra, ou seja, uma estatistica T e 
uma fungao de X 1( X 2 , ..., X n . 

As estatisticas mais comuns sao: 

n 

X = l/n Xx, : media da amostra, 

i =1 

1 n 

S 2 =-- ^(X; - X ) 2 : variancia da amostra, 

n - 1 i =i 1 


X (1) = min (X lf X 2 , ..., XJ : o menor valor da amostra, 
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X (n) = max (X 1( X 2l XJ : o maior valor da amostra, 

W = X (n) - X (1) : amplitude amostral, 

X (i) = a i-esima maior observagao da amostra. 

Em geral, como ja vimos no Capitulo 3, podemos considerar as estatisticas de ordem, 

X,i, « X (2) ... « X (n) , 

ou seja, os elementos da amostra ordenados. 

Outras estatisticas importantes sao os quantis (empfricos), q(p), 0 < p < 1, defini- 
dos no Capitulo 3, especialmente os tres quartis q 1( q 2 e q 3 . 

Para facilitar a linguagem usada em Inferencia Estatistica, iremos diferenciar as 
caracteristicas da amostra e da populagao. 

Definigao. Urn parametro e uma medida usada para descrever uma caracterfstica 
da populagao. 

Assim, se estivermos colhendo amostras de uma populagao, identificada pela v.a. 
X, seriam parametros a media E(X) e sua variancia Var(X). 

Os sfmbolos mais comuns sao dados na tabela a seguir. 


Denominagao 

Populapao 

Amostra 

Media 

1 = 

II 

m 

>< 

X=XXi/n 

Mediana 

Md =Q 2 

md =q 2 

Variancia 

a 2 =Var(X) 

S 2 =X (X; - X ) 2 /(n - 1) 

N 2 de elementos 

N 

n 

Proporcao 

P 

P“ 

Quantil 

Q(p) 

q(p) 

Quartis 

Qi. Q 2 . Q 3 

Pi, q 2 . q 3 

Intervalo inter-quartil 

dq — Q 3 “ Q 1 

d q = q 3 - qi 

Funcao densidade 

f(x) 

histograma 

Funpao de distribuicao 

F (x) 

F.(x) 


10.7 Distribuicoes Amostra is 

Vimos na segao 10.3 que o problema da inferencia estatistica e fazer uma afirma- 
gao sobre os parametros da populagao atraves da amostra. Digamos que nossa afirmagao 
deva ser feita sobre urn parametro 6 da populagao (por exemplo, a media, a variancia 
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ou qualquer outra medida). Decidimos que usaremos uma AA5 de n elementos sortea- 
dos dessa populagao. Nossa decisao sera baseada na estatistica T, que sera uma fungao da 
amostra (X lf X 2 , X n ), ou seja, T = f ( X 1( X n ). Colhida essa amostra, teremos observado 
um particular valor de T, digamos t 0l e baseados nesse valor e que faremos a afirmagao 
sobre d, o parametro populacional. Veja a Figura 10.1 (a). 

A validade da nossa resposta seria melhor compreendida se soubessemos o que acon- 
tece com a estatistica T, quando retiramos todas as amostras de uma populagao conhecida 
segundo o piano amostral adotado. Isto e, qual a distribuigao de T quando (X 1( X n ) 
assume todos os valores possfveis. Essa distribuigao e chamada distri buigao amostral da 
estatistica T e desempenha papel fundamental na teoria da inferencia estatistica. 
Esquematicamente, teriamos o procedimento representado na Figura 10.1, onde temos: 

(a) uma populagao X, com determinado parametro de interesse 0; 

(b) todas as amostras retiradas da populagao, de acordo com certo procedimento; 

(c) para cada amostra, calculamos o valor t da estatistica T; e 

(d) os valores t formam uma nova populagao, cuja distribuigao recebe o nome de 
distribuigao amostral de T. 

Figura 10.1: (a) Esquema de inferencia sobre 0. 

(b) Distribuiqao amostral da estatistica T. 

Populagao 


X ~/(x; 0) 


(a) 

Amostras Populagao das 




AAS 


(b) 
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Vejamos alguns exemplos simples para aclarar um pouco mais o conceito de distri- 
buigao amostral de uma estatfstica. Nosso principal objetivo e identificar um modelo 
que explique bem a distribuigao amostral de T. E evidente que a distribuigao de T ira 
depender da distri buigao de X e do piano amostral, em nosso caso reduzido a A AS. 


Exemplo 10.9 Voltemos ao Exemplo 10.7, no qual selecionamos todas as amostras 
de tamanho 2, com reposigao, da populagao {1, 3, 5, 5, 7}. A distribuigao conjunta da 
variavel bidimensional (X 1( X 2 ) e dada na Tabela 10.2. 

Vejamos qual e a distribuigao da estatfstica 

X = Xl + ■ (10.1) 


Essa distri buigao e obtida por meio da Tabela 10.2. Por exemplo, quando a amos- 
tra selecionada e o par (1, 1), a media sera 1; entao, temos que P(X = 1) = 1/25. Obte- 
remos a media igual a 3 quando ocorrer o evento A = {(1, 5),(3, 3),(5, 1)}, logo 


P,X=3)=P(A) = ^ + ^ +5 | + A = 


1 _ 
5 ' 


Tabela 10.2: Distribuigao das probabilidades das possfveis amostras de tamanho 2 
que podem ser selecionadas com reposicao da populaqao {1,3,5,5,7}. 



1 

3 

5 

7 

Total 

1 

1/25 

1/25 

2/25 

1/25 

1/5 

3 

1/25 

1/25 

2/25 

1/25 

1/5 

5 

2/25 

2/25 

4/25 

2/25 

2/5 

7 

1/25 

1/25 

2/25 

1/25 

1/5 

Total 

1/5 

1/5 

2/5 

1/5 

1 


Procedendo de maneira analoga para os demais valores que X pode assumir, 
obtemos a Tabela 10.3,_que da a distribuigao da v.a. X. Na Figura 10.2 temos as 
distribuigoes de X e de X. 


Tabela 10.3: Distribuiqao amostral da estatfstica X. 


X 

l 

2 

3 

4 

5 

6 

7 

Total 

lx 

II 

lx 

a_ 

1/25 

2/25 

5/25 

6/25 

6/25 

4/25 

1/25 

1,00 
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Figura 10.2: Distribui^ao de X(-) e X ( - ■ ■ ), obtida de 25 amostras de tama- 

nho 2 de {1,3,5,5,7}. 



Com um procedimento analogo podemos obter as distribuigoes amostrais de ou- 
tras estatfsticas de interesse. As Tabelas 10.4 e 10.5 trazem as distribuigoes amostrais 
das estatfsticas W = amplitude total e S 2 = X(X| - X) 2 /(n - 1), respectivamente. 


Tabela 10.4: Distribui?ao amostral de W. 


w 

O 

2 

4 

6 

Total 

P (W =w) 

7/25 

10/25 

6/25 

2/25 

1,00 


Tabela 10.5: Distribui?ao amostral de S 2 . 


s 2 

O 

2 

8 

18 

Total 

P(S 2 = s 2 ) 

7/25 

10/25 

6/25 

2/25 

1,00 


Exemplo 10.5. (continuagao) No caso do langamento de uma moeda 50 vezes, usando 
como estatfstica X = numero de caras obtidas, a obtengao da distribuigao amostral, que ja 
foi vista, e feita por meio do modelo binomial b(50, p), qualquer que seja p = probabilidade 
de ocorrencia de cara num langamento, 0 < p < 1. Se estivermos interessados em 
julgar a "honestidade" da moeda, estaremos verificando se p = 0,5. Nessas condigoes, a 
P(X 3* 361 n = 50, p = 0,5) = 0,0013 = 0,13%. 

Portanto, caso a moeda seja honesta, em 50 langamentos, a probabilidade de se 
obterem 36 ou mais caras e da ordem de 1 por 1.000. Ou seja, se a moeda fosse 
honesta, o resultado observado (36 caras) seria muito pouco provavel, evidenciando 
que p > 0,5. 
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Comparando os dois ultimos exemplos, vemos que nos interessa determinar pro- 
priedades das distribuigoes amostrais que possam ser aplicadas em situagoes mais 
gerais (como no caso binomial) e nao em situagoes muito particulares (como no 
Exemplo 10.7). Iremos, agora, estudar as distribuigoes amostrais de algumas estatis- 
ticas importantes. Nos capitulos seguintes essas distribuigoes serao usadas para fa- 
zer inferencias sobre populagoes. 

Quando estivermos trabalhando com populagoes identificadas pela di stri buigao de 
probabilidades, nao poderemos gerar todas as amostras possiveis. Devemos conten- 
tar-nos em simular urn numero "grande" de amostras e ter uma ideia do que acontece 
com a estatfstica de interesse. 

Exemplo 10.8. (continuagao) Qual seria a distribuigao amostral da mediana das altu- 
ras de amostras de 5 mulheres retiradas da populagao X ~ N(167; 25)? Como nao 
podemos gerar todas as possiveis amostras de tamanho 5 dessa populagao, simula- 
mos, via Excel, 200 amostras de tamanho 5 e obtivemos os seguintes resultados: 

E(md) = 166,88, Var(md) = 7,4289, dp(md) = 2,72, 

X(i) = minfXj, ..., X 2 oo) = 160, X( 2 oo) = cnax (X 1( ..., X 2 oo) = 173. 

Observando os resultados somos levados a pensar que a distribuigao amostral de 
md deve ser proxima de uma normal, com media proxima de /u = 167 e desvio padrao 
menor do que o = 5. Veja a Figura 10.3. 

Voltaremos a talar na distribuigao da mediana amostral em segoes futuras. 


Figura 10.3: Distribuigao amostral da mediana, obtida de 200 amostras 
de tamanho 5 de X ~ N (167; 25). 



4. Usando os dados da Tabela 10.2, construa a distribuigao amostral da estatfstica 
E(Xi- X) 2 


a L = 


n 
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5. No Problema 3, se X indicar o numero de filhos na populaqao, Xj o numero de filhos 
observados na primeira extraqao e X 2 na segunda: 

(a) calcule a media e a variancia de X; 

(b) calcule E(X|) eVar(Xj), i =1, 2; 

(c) construa a distribuigao amostral de X = — ; 

(d) calcule E (X) eVar(X); 

(e) faqa num mesmo grafico os histogramas de X e de X; 

(f) construa as distributes amostrais de S 2 = ^ = 1 (X, - X ) 2 e cr 2 =^ i = 1 (Xj - X) 2 /2; 

(g) baseado no resultado de (f), qual dos dois estimadores voce usaria para estimar a 
variancia de X? Por que? 

(h) calcule P (|X - ju | >1). 


6. Ainda com os dados do Problema 3, e para amostras de tamanho 3: 

(a) determine a distribuiqao amostral de X e faqa o histograma; 

(b) calcule a media e variancia de X; 

(c) calcule P(IX - jul > 1). 

(d) se as amostras fossem de tamanho 4, a P (|X - jU >1) seria maior ou menor do que 
a probabilidade encontrada em fcj? Por que? 


10.8 Distribuicao Amostral da Media 

Vamos estudar agora a distribuigao amostral da estatistica X, a media da amostra. 
Consideremos uma populagao identificada pela variavel X, cujos parametros media 
populacional /u = E (X) e variancia populacional o 2 =Var(X) sao supostos conhecidos. 
Vamos retirar todas as possfveis AAS de tamanho n dessa populagao, e para cada uma 
calcular a media X. Em seguida, consideremos a distribuigao amostral e estudemos 
suas propriedades. Voltemos a considerar, a tftulo de iIustragao, o Exemplo 10.7. 


Exemplo 10.10. A populagao {1, 3, 5, 5, 7} tern media n = 4,2 e variancia a 2 = 4,16. 
A distribuigao amostral deX esta na Tabela 10.3, da qual obtemos 

E(X)-^ R -1x 1 + 2X A + 3xA +4 xA +5x « 


+ 6 x 


A_ 

25 


+ 7X 2T 


= 4,2. 


De modo analogo, encontramos 

Var(X) = 2,08. 


Verificamos, aqui, dois fatos: primeiro, a media das medias amostrais coincide com a 
media populacional; segundo, a variancia deX e igual a variancia de X, dividida por n = 2. 
Estes dois fatos nao sao casos isolados. Na realidade, temos o seguinte resultado. 
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Teorema 10.1, Seja X uma v.a. com media /u e variancia a 2 , e seja (X 1( X n ) uma 
AAS de X. Entao, 

E(X)=H e Var(X)=-^ 

Prova Pelas propriedades vistas no Capftulo 8, temos: 

E(X) =(l/n) {E(Xj) + ... + E(X n )} 

= (l/n) {/u +/u +... +/u} = n/uln = J u. 

De modo analogo, e pelo fato de X 1( X n serem independentes, temos 
Var(X) = (1/n 2 ) {Var(Xj) + ... +Var(X n )} 

= (1/n 2 ) {a 2 + ... + a 2 } = ncr 2 /n 2 = <r 2 /n. 

Determinamos, entao, a media e a variancia da distribuigao amostral de X. Veja- 
mos, agora, como obter informagao sobre a forma da distribuigao dessa estatistica. 

Exemplo 10.10. (continuagao) Para a populagao {1, 3, 5, 5, 7}, vamos construir os 
histogramas das distribuigoes de X" para n = 1, 2 e 3. 

(i) Para n = 1, vemos que a distribuigao de X" coincide com a distribuigao de X, com 
E(X) = E(X) =4,2 eVar(X) =Var(X) =4,16 (Figura 10.4(a)). 


Figura 10.4: Distribuigao de X paraamostras 
de {1,3,5,5, 7}. 
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(ii) Para n = 2, baseados na Tabela 10.3, temos a distribuigao de X dada na Figura 
10.4(b), com E (X) = 4,2 e Var(X) = 2,08. 

(iii) Finalmente, para n = 3, com os dados da Tabela 10.6, temos a distribuigao de X na 
Figura 10.4 (c), com E(X) = 4,2 e Var(X) = 1,39. 

Observe que, conforme n vai aumentando, o histograma tende a se concentrar cada 
vez mais em torno de E(X) = E(X) = 4,2, ja que a variancia vai diminuindo. Os casos 
extremos passam a ter pequena probabilidade de ocorrencia. Quando n for suficiente- 
mente grande, o histograma alisado aproxima-se de uma distribuigao normal. Essa apro- 
ximagao pode ser verificada analisando-se os graficos da Figura 10.5, que mostram o 
comportamento do histograma deX para varias formas da distribuigao da populagao e 
varios vai ores do tamanho da amostra n. 

Esses exemplos sugerem que, quando o tamanho da amostra aumenta, indepen- 
dentemente da forma da distribuigao da populagao, a distribuigao amostral de X apro¬ 
xima-se cada vez mais de uma distribuigao normal. Esse resultado, fundamental na 
teoria da Inferencia Estatfstica, e conhecido como Teorema Limite Central (TLC). 


Figura 10.5 Histogramas correspondentes as distribuipoes amostrais de X para amostras extrafdas 
de algumas populapoes. 



Teorema 10.2. (TLC) Para amostras aleatorias simples (X 1( ..., X n ), retiradas de uma 
populagao com media /u e variancia <r 2 finita, a distribuigao amostral da media X apro¬ 
xima-se, para n grande, de uma distribuigao normal, com media ^ e variancia (j 2 /n. 
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A demonstragao completa desse teorema exigiria recursos dos quais nao dispo- 
mos, portanto nao sera dada, mas o importante e sabermos como esse resultado pode 
ser usado. 

Observemos que, se a populagao for normal, entao X tera distribuigao exata nor¬ 
mal. Esse resultado segue do fato de que a distribuigao de uma combinagao linear de 
v.a.'s normals independentes tern ainda di stri bui gao normal. No caso da X~, a media 
e variancia dessa normal serao dadas pelo Teorema 10.1. A prova dessa propriedade 
depende do conceito de fungao geradora de momentos, que nao sera objeto deste livro. 
0 leitor interessado pode consultar Meyer (1965), por exemplo. 

Exemplo 10.11. Voltemos ao Exemplo 10.4, onde uma maquina enchia pacotes cujos 
pesos seguiam uma distribuigao N(500, 100) J2olhendo-se urn amostra de n = 100 paco¬ 
tes e pesando-os, pelo que foi dito acima, X tera uma distribuigao normal com media 
500 e variancia 100/100 = 1. Logo, se a maquina estiver regulada, a probabilidade de 
encontrarmos a media de 100 pacotes diferindo de 500 g de menos de 2 gramas sera 

P(IX - 5001 < 2) = P(498 < X < 502) =P(-2 < Z < 2) » 95%. 

Ou seja, dificilmente 100 pacotes terao uma media fora do intervalo (498, 502). 
Caso 100 pacotes apresentem uma media fora desse intervalo, podemos considerar 
como urn evento raro, e sera razoavel supor que a maquina esteja desregulada. 

Outra maneira de apresentar o TLC e por meio do 

Corolario 10.1. Se (X 1( ..., X n ) for uma amostra aleatoria simples da populagao X, com 
media /u e variancia o 2 finita, e X = (X 1 + ... + X n )/n, entao 

Z = ILzJL ~ n(0,1). (10.2) 

cH n 

Basta notar que se usou a transformagao usual de reduzir a distribuigao deX a uma 
normal padrao. Observe, tambem, que (10.2) pode ser escrita como 

Z = Vn (X - fi) _ N(Q x) (10.3) 

a 

Chamemos de e a v.a. que mede a diferenga entre a estatfsticaX e o parametro /u, 
isto e, e =X - e e chamado o erro amostral da media. Entao, temos o 

Corolario 10.2. A distribuigao de e aproxima-se de uma distribuigao normal com 
media 0 e variancia cr 2 /n, isto e, 


^-~N(0, 1). (10.4) 

a 

O TLC afirma queX aproxima-se de uma normal quando n tende para o infinite, e 
a rapidez dessa convergence (veja a Figura 10.5) depende da distribuigao da popula- 
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gao da qual a amostra e retirada. Se a populagao original tem uma distribuigao proxi- 
ma da normal, a convergencia e rapida; se a populagao original se afasta muito de uma 
normal, a convergencia e mais lenta, ou seja, necessitamos de uma amostra maior para 
queX tenha uma distribuigao aproximadamente normal. Para amostras da ordem de 30 
ou 50 elementos, a aproximagao pode ser considerada boa. 


7. Uma v.a. X tem distribuigao normal, com media 100 e desvio padrao 10. 

(a) Qual a P (90 < X < 110)? 

(b) Se X for a media de uma amostra de 16 elementos retirados dessa populagao, calcule 
P(90 < X < 110). 

(c) Represente, num unico grafico, as distributes de X e X. 

(d) Que tamanho deveria ter a amostra para que P (90 < X < 110) = 0,95? 

8 . A maquina de empacotar um determinado produto o faz segundo uma distribuigao nor¬ 
mal, com media /u e desvio padrao 10 g. 

(a) Em quanto deve ser regulado o peso medio /u para que apenas 10% dos pacotes 
tenham menos do que 500 g? 

(b) Com a maquina assim regulada, qual a probabilidade de que o peso total de 4 paco¬ 
tes escolhidos ao acaso se|a inferior a 2 kg? 

9. No exemplo anterior, e apos a maquina estar regulada, programou-se uma carta de 
controle de qualidade. De hora em hora, sera retirada uma amostra de quatro pacotes e 
esses serao pesados. Se a media da amostra for inferior a 495 g ou superior a 520 g, 
encerra-se a produgao para reajustar a maquina, isto e, reajustar o peso medio. 

(a) Qual e a probabilidade de ser feita uma parada desnecessaria? 

(b) Se o peso medio da maquina desregulou-se para 500 g, qual e a probabilidade de 
continuar a produgao fora dos padroes desejados? 

1 0. A capacidade maxima de um elevador e de 500 kg. Se a distribuigao X dos pesos dos 
usuarios for suposta N (70, 100): 

(a) Qual e a probabilidade de sete passageiros ultrapassarem esse limite? 

(b) E seis passageiros? 


10.9 Distribuicao Amostral de uma Proporcao 

Vamos considerar uma populagao em que a proporgao de elementos portadores de 
certa caracteristica e p. Logo, podemos definir uma v.a. X, da seguinte maneira: 


X = 


1 , 

0 , 


se o individuo for portador da caracteristica 
se o individuo nao for portador da caracteristica, 


logo, 


ju = E (X) = p, a 2 =Var(X) = p(l - p). 
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Retirada uma AAS dessa populagao, e indicando por Y n o total de individuos porta- 
dores da caracterfstica na amostra, ja vimos que 

Y n ~ b(n, p). 

Vamos definir por p~ a proporgao de individuos portadores da caracterfstica na 
amostra, isto e, 


Entao, 


P (Y„ =k) = P (Y n /n = k/n) = P (p = k/n), 
ou seja, a distribuigao amostral de p e obtida da distribuigao de Y n . 

Vimos na segao 7.5 que a distribuigao binomial pode ser aproximada pela distribuigao 
normal. Vamos mostrar que a justificativa desse fato esta no TLC. Inicialmente, observe que 


Y n = X, + X 2 + ... + X n , 

onde cada X t tern distribuigao de Bernoulli, com media ^pe variancia o 2 = p(l - p), 
e sao duas a duas independentes. Podemos escrever que 

Y„ = nX, 


mas pelo TLC, X tera distribuigao aproximadamente normal, com media p e variancia 
P(1 - P) 


, ou seja, 


N p, 


Pd - P) 


Logo, a transformagao Y n = nX tera a distribuigao 

Y n ~ N (np, np(l - p)), 

que foi a aproximagao adotada na segao 7.5. 

Observe queX, na expressao acima, e a propria variavel p e, desse modo, para n 
grande podemos considerar a distribuigao amostral de p como aproximadamente normal: 


Exemplo 10.12. Suponha que p = 30% dos estudantes de uma escola sejam mulheres. 
Colhemos uma AAS de n = 10 estudantes e calculamos p = proporgao de mulheres na 
amostra. Qual a probabilidade de que p difira de p em menos de 0,01? Temos que essa 
probabilidade e dada por 

P (|p - Pi < 0,01) = P (- 0,01 < p - p < 0,01). 
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M as, p - p ~ N (o, j, e como p = 0,3, temos que 

Var(p) = (0, 3)(0, 7)/10 = 0,021, 
e, portanto, a probabilidade pedida e igual a 

p( ~°’ 01 < Z < °L ) = P (- 0,07 < Z < 0,07) = 0,056. 
W0,021 V 0,021/ 


11. Sabe-se que 20% das pegas de um lote sao defeituosas. Sorteiam-se oito pegas, com 
reposigao, e calcula-se a proporgao p de pegas defeituosas na amostra. 

(a) Construa a distribuigao exata de p (use a tabua da distribuigao binomial). 

(b) Construa a aproximagao normal a binomial. 

(c) Voce pensa que a segunda distribuigao e uma boa aproximagao da primeira? 

(d) Ja sabemos que, para dado p fixo, a aproximagao melhora a medida que n aumenta. 
Agora, se n for fixo, para qual valor de p a aproximagao e melhor? 

12. Um procedimento de contfole de qualidade foi planejado para garantir um maximo de 
10% de itens defeituosos na produgao. A cada 6 horas sorteia-se uma amostra de 20 
pegas e, havendo mais de 15% de defeituosas, encerra-se a produgao para verificagao 
do processo. Qual a probabilidade de uma parada desnecessaria? 

13. Supondo que a produgao do exemplo anterior esteja sob controle, isto e, p = 10%, e que os 
itens sejam vendidos em caixas com 100 unidades, qual a probabilidade de que uma caixa: 

(a) tenha mais do que 10% de defeituosos? 

(b) nao tenha itens defeituosos? 

10.10 Outras Distribuicoes Amostrais 

Do mesmo modo que estudamos a distribuigao amostral de X, podemos, em prin- 
dpio, estudar a distribuigao amostral de qualquer estatistica T = f(X lf ..., X n ). Mas, 
quanto mais complexa for essa relagao f, mais diffcil sera a derivagao matematica das 
propriedades dessa estatistica. Vejamos alguns exemplos. 

Exemplo 10.13. Na Tabela 10.6 apresentamos a distribuigao de tres outras estatisticas; 
a variancia da amostra, 

S2 =WtW ( x '-*>' 

a mediana amostral, md, e o estimador 

■ (X, - X) 2 , 

II I =1 
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que difere de S 2 apenas no denominador, e que foi estudado no Capftulo 3. Desta 
tabela, obtemos as distribuigoes amostrais apresentadas nas Tabelas 10.7, 10.8 e 10.9. 


Tabela 10.6: Distribuiipao amostral de algumas estatisticas obtidas de amostra de tamanho n = 3, 
retiradasda populacao {1,3, 5, 5, 7} (/j =4,2, <7 2 = 4,16 e M d =5). 


Tipo de 
amostra 

Frequencia 
(prob. x 125) 

Soma 

Soma dos 
quadrados 

Media 

X 

Mediana 

md 

Variancia 

s 2 

a 2 

111 

1 

3 

3 

1,00 

1 

0 

0 

113 

3 

5 

11 

1,67 

1 

4/3 

8/9 

115 

6 

7 

27 

2,33 

1 

16/3 

32/9 

117 

3 

9 

51 

3,00 

1 

12 

8 

133 

3 

7 

19 

2,33 

3 

4/3 

8/9 

135 

12 

9 

35 

3,00 

3 

4 

8/3 

137 

6 

11 

59 

3,67 

3 

28/3 

56/9 

155 

12 

11 

51 

3,67 

5 

16/3 

32/9 

157 

12 

13 

75 

4,33 

5 

28/3 

56/9 

177 

3 

15 

99 

5,00 

7 

12 

8 

333 

1 

9 

27 

3,00 

3 

0 

0 

335 

6 

11 

43 

3,67 

3 

4/3 

8/9 

337 

3 

13 

67 

4,33 

3 

16/3 

32/9 

355 

12 

13 

59 

4,33 

5 

4/3 

8/9 

357 

12 

15 

83 

5,00 

5 

4 

8/3 

377 

3 

17 

107 

5,67 

7 

16/3 

32/9 

555 

8 

15 

75 

5,00 

5 

0 

0 

557 

12 

17 

99 

5,67 

5 

4/3 

8/9 

577 

6 

19 

123 

6,33 

7 

4/3 

8/9 

777 

1 

21 

147 

7,00 

7 

0 

0 

Total 

125 








Tabela 10.7: Distribuipao amostral da variancia S 2 , para amostras de tamanho 3, retiradas da populapao 
{1,3,5,5,7}. 


S 2 

0,00 

1,33 

4,00 

5,33 

9,33 

12,00 

P (S 2 = s 2 ) 

11/125 

42/125 

24/125 

24/125 

18/125 

6/125 


E (S 2 ) = 4,16, Var(S 2 ) = 11,28. 

Tabela 10.8: Distribuiipao amostral da mediana da amostra md para amos¬ 
tras de tamanho 3, retiradas da populapao {1,3, 5, 5, 7}. 


md 

1 

3 

5 

7 

Prob. 

13/125 

31/125 

68/125 

13/125 


E (md) =4,30, Var(md) =2,54. 
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Tabela 10.9: Distribui^ao amostral da variancia a 2 , para amostras de 
tamanho 3, retiradas da populaipao {1,3, 5, 5, 7}. 


<T 2 

0,00 

0,89 

2,67 

3,56 

6,22 

8,00 

Prob. 

11/125 

42/125 

24/125 

24/125 

18/125 

6/125 


E(<t 2 ) = 2,77, Varies- 2 ) = 5,04. 

Os graficos das fungoes de probabilidade estao nas Figuras 10.6, 10.7 e 10.8. A 
obtengao das propriedades dessas estatisticas, de modo geral, nao e uma tarefa facil, e os 
modelos de probabilidade resultantes correspondem a distribuigoes mais complexas. 

Figure! 10.6: Distribuigao amostral de S 2 para amostras de 
tamanho n =3 extrafdas de {1,3,5, 5, 7}. 



Figura 10.7: Distribuifao amostral de md para amostras de tamanho 
n = 3de{l,3, 5, 5, 7}. 
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Figura 10.8 Distribuigao amostral de <7 2 para amoslras de tamanho n = 3 extraidas de 
{1,3,5,5,7}. 



Por exemplo, note queJ(S 2 ) = 4,16 = a 2 , logo S 2 satisfaz uma propriedade analoga 
a E (X) =/s, dizemos que X e S 2 sao estimadores nao-viesados dos respectivos parametros 
jj. e a 2 . Esta propriedade ja nao vale para md e a 2 , pois E(md) = 4,3, enquanto Md =5,0 
e E(<7 2 ) = 2,77 e nao 4,16. Vemos que a 2 sub-estima a verdadeira variancia. 

Tambem pode-se demonstrar que S 2 segue uma distribuigao que e um multiplo de 
uma distribuigao qui-quadrado (X 2 ), quando a populagao tern distribuigao normal. Ver 
a segao 11.9. Ja a mediana md, obtida de amostras de uma populagao simetrica, com 
media /a e variancia a 2 , segue aproximadamente uma distribuigao normal, com media 
E (md) = n e Var(md) = (/r(j 2 )/(2n). Note que se exigem mais suposigoes do que aquelas 
mencionada no TLC. Nos Capitulos 11 e 12 voltaremos a discutir algumas distribui- 
goes amostrais e suas aplicagoes. 


14. Usando os dados da Tabela 10.2: 

(a) construa a distribuigao amostral de a 2 e compare com a distribuigao amostral de S 2 (Tabela 
10.5). Voce notou alguma propriedade de S 2 que seja "melhor" do que de a 2 ? 

(b) seja U a media de elementos distintos de amostras de tamanho n =3. Por exemplo, se 
a amostra observada for (1, 1, 3), entao u = (1 + 3)/2 = 2. Construa a distribuigao 
amostral de U; 

(c) compare as distributes amostrais de U e X . 

15. Na tabela abaixo tem-se a distribuigao dos salarios da Secretaria A. 


Classes de salarios 

Frequencia relativa 

4,51- 7,5 

0,10 

7,51- 10,5 

0,20 

10,51- 13,5 

0,40 

13,51— 16,5 

0,20 

16,51— 19,5 

0,10 
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(a) Calcule a media, a variancia e a mediana dos salarios nessa populagao. 

(b) Construa a distribuigao amostral da media e da mediana para amostras de tamanho 2, 
retiradas dessa populagao. 

(c) Mostre que a media X e a mediana md da amostra sao estimadores nao-viesados da 
mediana Md da populagao, no sentido que E(X ) =E(md) =M d. 

(d) Qual dos dois estimadores nao-viesados voce usaria para estimar Md nesse caso? 
Por que? 

(e) Baseado na distribuigao amostral da media, encontre a distribuigao amostral da 
estatfstica 


Z = 


X - jU 

a 


VrT, 


para n = 2. 

(f) Quais sao os valores de E (Z) e Var(Z)? 

(g) Construa a distribuigao amostral da estatfstica 

S 2 = -^StXi-X) 2 , 

n - l i =i 

e faga o seu histograma. 

(h) Calcule a media e variancia de S 2 . 

(i) Baseando-se nas distributes amostrais anteriores, determine a distribuigao amostral 
da estatfstica 


e construa seu histograma. Qual o problema encontrado? 
(\) Calcule a media e variancia de t, quando possfvel. 

(k) Calcule a P (11| < 2) e P(|t| < 4,30). 


16. Tente esbogar como ficariam os histogramas das estatfsticas abaixo, para amostras de 
tamanho grande. 

(a) S 2 (faga o histograma da distribuigao da Tabela 10.5) 


(b) Z = ———n/TT (Veja o Teorema Limite Central) 


(c) 


t = ^ — Vn, definida no problema anterior (compare com a expressao e o resu 

tado obtido em (b)). 


10.11 Determinacao do Tamanho de uma Amostra 

Em nossas consideragoes anteriores fizemos a suposigao que o tamanho da amostra, 
n, era conhecido e fixo. Podemos, em certas ocasioes, querer determinar o tamanho da 
amostra a ser escolhida de uma populagao, de modo a obter urn erro de estimagao 
previamente estipulado, com determinado grau de confianga. 
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Por exemplo, suponha que estejamos estimando a media /u populacional e para 
tanto usaremos a media amostral, X, baseada numa amostra de tamanho n. Suponha 
que se queira determinar o valor de n de modo que 

P(lX-^l^e)^^ (10.5) 

com 0<y<le£eo erro amostral maximo que podemos suportar, ambos valores fixados. 

Sabemos que X ~ N(/u, <r 2 /n), logo X - jj. ~ N(0, <j 2 /n) e portanto (10.5) pode ser 
escrita 

P(-£« X - £) = p(^^ ^ Z « « y, 

com Z = (X - jj) xTn/a . Dado y, podemos obter z 7 da N(0,1), tal que P(-z 7 < Z < z 7 ) = 
y, de modo que 

dn £ _, 

r? ~ l Y> 


do que obtemos finalmente 


n = 


_ 2_2 
a z r 


( 10 . 6 ) 


Note que em (10.6) conhecemos z 7 e e, mas a 2 e a variancia desconhecida da 
populagao. Para podermos ter uma ideia sobre n devemos ter alguma informagao pre¬ 
via sobre c 2 ou, entao, usar uma pequena amostra piloto para estimar a 2 . 


Exemplo 10.13. (continuagao; Suponha que uma pequena amostra piloto de n = 10, 
extraida de uma populagao, forneceu os valores X = 15 e S 2 = 16. Fixando-se £ = 0,5 e 
7 = 0,95, temos 


_ 16 x (1,96) 2 
(0,5) 2 


245. 


No caso de proporgoes, usando a aproximagao normal da segao 10.9 para p, e 
facil ver que (10.6) resulta 


_ Zyp(l - p) 
£ 2 


(10.7) 


Como nao conhecemos p, a verdadeira proporgao populacional, podemos usar o 
fato de que p(l - p) «= 1 / 4 , para todo p, e (10.7) fica 



Por outro lado, se tivermos alguma informagao sobre p ou pudermos estima-lo 
usando uma amostra piloto, basta substituir esse valor estimado em (10.7). 
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Exemplo 10.14. Suponha que numa pesquisa de mercado estima-se que no mfnimo 
60% das pessoas entrevistadas preferirao a marca A de um produto. Essa informagao e 
baseada em pesquisas anteriores. Se quisermos que o erro amostral de p seja menor do 
que e = 0,03, com probabilidade y = 0,95, teremos 


« (1,96) 2 (0,6)(0,4) 
(0,03) 2 


1.024, 


na qual usamos o fato de que p > 0,60. Veja tambem os Problemas 19, 20 e 41. 


emas 


17. Suponha que uma industria farmaceutica deseja saber a quantos voluntaries se deva 
aplicar uima vacina, de modo que a proporgao de individuos imunizados na amostra 
difira de menos de 2% da proporgao verdadeira de imunizados na populagao, com 
probabilidade 90%. Qual o tamanho da amostra a escolher? Use (10.8). 

18. No problema anterior, suponha que a industria tenha a informagao de que a proporgao 
de imunizados pela vacina seja p 3= 0,80. Qual o novo tamanho de amostra a escolher? 
Houve redugao? 

19. Seja o tamanho de amostra dado por (10.7) e n 0 dado por (10.8). Prove que, para todo p, 
temos n n 0 . (Use a fungao f(p) = p(l - p) para sua resposta.) 

20. Suponha que haja a informagao p =£ p 0 < 0,5, com p 0 conhecida. Se z 2 p 0 (l- p 0 )/£ 2 , 
mostre que n rg < n 0 . Mostre que essa mesma relagao vale se soubermos que 
P 2* Po> 0,5. 

[Sugestao: note que f(p) = p(l - p) e crescente em [0; 0,5], atinge o maximo em 0,5 e 
depois e decrescente em [0,5; 1].] 

10.12 Exemplos Computacionais 

Vimos, no Exemplo 10.7, como escolher todas as possfveis amostras de tamanho 
n = 2, com reposigao, da populagao {1, 3, 5, 5, 7}. Obtemos 5 2 = 25 amostras. Como 
ja salientamos em segoes anteriores, ao escolher uma amostra de uma populagao, 
estamos na realidade gerando valores de uma v.a. com determinada distribuigao de 
probabilidades, supostamente conhecida. No exemplo, podemos pensar na v.a. X, as- 
sumindo os valores x 1 = 1, x 2 = 3, x 3 = 5, x 4 = 5, x 5 = 7, com probabilidades todas iguais 
a 0,2. Portanto, para escolher uma amostra de tamanho n = 2, basta gerar dois valores 
dessa distribuigao, como aprendemos no Capftulo 9. 

Os programas Excel, SPIus e M initab tern comandos apropriados para gerar amos¬ 
tras de uma populagao especificada. 

Exemplo 10.15. O Excel usa a opgao Amostragem, dentro de "Analise de Dados" do 
menu "Ferramentas". Na coluna G do quadra do Exemplo 9.5, temos uma amostra 
aleatoria simples (com reposigao), de tamanho n = 5 da populagao P = {1, 2, ..., 10}, 
que esta na coluna F. 
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Exemplo 10.16. 0 SPIus usa o comando sample(x,n) para gerar uma amostra sem 
reposigao de tamanho n do conjunto x e o comando sample(x,n,replace=T) para gerar 
uma amostra com reposigao. 0 Quadra 10.1 mostra como obter amostras de tamanho 
n = 7 do conjunto x = {1, 2, 3, ..., 15}, sem e com reposigao. 

Quadro 10.1: Geracao de amostras. SPlus. 


> x<—c (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15) 

> 

> 

> sample (x, 7) 

[1] 6 7 4 2 3 10 5 

> 

> 

> sample (x, 7, replace=T) 

[1] 12 14 11 10 15 4 11 


Exemplo 10.17. O M initab usa os comandos Sample e Replace para obter amostras. 
Temos, no Quadro 10.2, amostras de tamanho n = 5 obtidas do conjunto {1, 2, ..., 10} 
(na coluna Cl). Na coluna C2 temos uma amostra sem reposigao e na coluna C3 uma 
amostra com reposigao. 


Quadro 10.2: Geracao de amostras. Minitab. 



Cl 

C2 

C3 


1 

1 

10 

8 


2 

2 

1 

3 


3 

3 

8 

8 

MTB > Sample 5 Cl C2. 

4 

4 

2 

6 

MTB > 

5 

5 

7 

4 

MTB > Sample 5 Cl C3; 

6 

6 



SUBC> Replace. 

7 

7 



MTB > 

8 

8 




9 

9 




10 

10 





10.13 Problemas e Complementos 

21. Uma v.a. X tern distribuigao normal com media 10 e desvio padrao 4. Aos participantes 
de um jogo e permitido observar uma amostra de qualquer tamanho e calcular a media 
amostral. Ganha um premio aquele cuja media amostral for maior que 12. 

(a) Se um participante escolher uma amostra de tamanho 16, qual e a probabilidade de 
ele ganhar um premio? 

(b) Escolha um tamanho de amostra diferente de 16 para participar do jogo. Qual e a 
probabilidade de voce ganhar um premio? 

(c) Baseado nos resultados acima, qual o melhor tamanho de amostra para participar 
do jogo? 
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22. Se uma amostra com 36 observagoes for tomada de uma populagao, qual deve ser o 
tamanho de uma outra amostra para que o desvio padrao dessa amostra seja 2/3 do 
desvio padrao da media da primeira? 

23. Definimos a variavel e = X — n como sendo o erro amostral de media. Suponha que a 
variancia dos salarios de uma certa regiao seja 400 reais 2 . 

(a) Determine a media e a variancia de e. 

(b) Que proporgao das amostras de tamanho 25 terao erro amostral absoluto maior do 
que 2 reais? 

(c) E qual a proporgao das amostras de tamanho 100? 

(d) Nesse ultimo caso, qual o valor de d, tal que P (| e j >d)=l%? 

(e) Qual deve ser o tamanho da amostra para que 95% dos erros amostrais absolutos 
sejam inferiores a um real? 

24. A distribuigao dos comprimentos dos elos da corrente de bicicleta e normal, com media 2 
cm e variancia 0,01 cm 2 . Para que uma corrente se ajuste a bicicleta, deve ter comprimen- 
to total entre 58 e 61 cm. 

(a) Qual e a probabilidade de uma corrente com 30 elos nao se ajustar a bicicleta? 

(b) E para uma corrente com 29 elos? 

[Observagao: suponha que os elos sejam selecionados ao acaso para compor a corrente, 
de modo que setenha independence.] 

25. Cada segao usada para a construgao de um oleoduto tern um comprimento medio de 5 m 
e desvio padrao de 20 cm. O comprimento total do oleoduto sera de 8 km. 

(a) Se a firma construtora do oleoduto encomendar 1.600 segoes, qual e a probabilidade 
de ela ter de comprar mais do que uma segao adicional (isto e, de as 1.600 segoes 
somarem menos do que 7.995 m)? 

(b) Qual e a probabilidade do uso exato de 1.599 segoes, isto e, a soma das 1.599 
segoes estar entre 8.000 m e 8.005 m? 

26. Um professor da um teste rapido, constante de 20 questoes do tipo certo-errado. Para testar 
a hipotese de o estudante estar adivinhando a resposta, ele adota a seguinte regra de deci- 
sao: "Se 13 ou mais questoes estiverem corretas, ele nao esta adivinhando". Qual e a 
probabilidade de rejeitarmos a hipotese, sendo que na realidade ela e verdadeira? 

27. Um distribuidor de sementes determina, por meio de testes, que 5% das sementes nao 
germinam. Ele vende pacotes com 200 sementes com garantia de 90% de germinagao. 
Qual e a probabilidade de que um pacote nao satisfaga a garantia? 

28. Uma empresa fabrica cilindros com 50 mm de diametro, sendo o desvio padrao 2,5 mm. Os 
diametros de uma amostra de quatro cilindros sao medidos a cada hora. A media da 
amostra e usada para decidirse o processo defabricagao esta operando satisfatoriamente. 
Aplica-se a seguinte regra de decisao: "Se o diametro medio de amostra de quatro cilindros 
for maior ou igual a 53,7 mm, ou menor ou igual a 46,3 mm, deve-se parar o processo. Se 
o diametro medio estiver entre 46,3 e 53,7 mm, o processo continua. 

(a) Qual e a probabilidade de se parar o processo se a media dos diametros permanecer 
em 50 mm? 

(b) Qual e a probabilidade de o processo continuar se a media dos diametros se deslo- 
car para 53,7 mm? 
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29. O CD-Vetculos traz os pregos de 30 carros nacionais e importados, extraldos da populagao 
de todos os carros vendidos no mercado. Supondo que o desvio padrao dessa amostra seja 
um bom representante do verdadeiro desvio padrao da populagao, qual sera otamanho de 
uma outra amostra a serescolhida, de modoque, com probabilidade 90%, a media amostral 
difira da verdadeira media de menos de 0,02? 

30. Tabela de Numeros Aleatorios. Para sortear AAS, costuma-se usartabelas de numeros ale¬ 
atorios, que sao colegoes de dfgitos construidos aleatoriamente e que simulam o processo 
de sorteio. Na Tabela VII, apresentamos um pequeno conjunto de numeros aleatorios. Po- 
dem ser usados do seguinte modo: se quisermos selecionar dez nomes de uma lista de 90 
pessoas, devemos comegar numerando-os 01, 02, ..., 90. Em seguida, escolhemos duas 
colunas, digamos as duas primeiras, e tomamos os dez primeiros numeros; no caso, serao: 
61, 94, 50,51,25,63, 12,38, 22,07,61. 

Observe que o 94 foi eliminado, pois nao existe esse numero na populagao, e o 61 devera 
aparecer repetido. Para outras explicates etabelas maiores, consultar Pereira e Bussab (1974). 

31. Como voce usaria uma tabela (ou um gerador) de numeros aleatorios para sortear uma 
amostra nas seguintes situagoes: 

(a) 5 alunos de sua classe; 

(b) 10 alunos de sua escola; 

(c) 15 d omicilios de seu bairro; 

(d) 20 agoes negociadas na Bolsa de Sao Paulo; 

(e) 5 numeros de uma populagao cujos elementos sao numerados de 1 a 115. Existe 
algum modo de "apressar" o sorteio? 

(f) 5 numeros de uma populagao de 115 nomes, cujos numeros vao de 612 a 726; 

(g) 5 numeros de uma populagao de 115 nomes, cuja numeragao nao e sequencial, mas 
esta compreendida entre os numeros 300 e 599. 

32. Distribuigao amostral da diferenga de duas medias. Consideremos duas populagoes X 
com parametros fii e afe Y com parametros |i 2 e a\. Sorteiam-se duas amostras indepen- 
dentes: a da primeira populagao de tamanho n e a da segunda de tamanho m. Calcu- 
lam-se as medias amostrais X e Y. 

(a) Qual a distribuigao amostral de X? E de Y? 

(b) Defina D = X - Y. O que voce entende por distribuigao amostral de D ? 

(c) CalculeE(D) eVar(D). 

(d) Como voce acha que sera a distribuigao de D ? Por que? 

33. A distribuigao dos salarios (em salarios mfnimos) de operarios do sexo masculino de uma 
grande fabrica e N (5,4; 1,69), e a de operarios do sexo feminino e N (5,4; 2,25). 
Sorteiam-se duas amostras, uma com 16 homens e outra com 16 mulheres. Se D for a 
diferenga entre o salario medio dos homens e das mulheres: 

(a) Calcule P (| D | > 0,5). 

(b) Qual o valor de d tal que P (| D | > d) = 0,05? 

(c) Que tamanho comum deveriam ter ambas as amostras para que P ( D | >0,4) =0,05? 
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34. Numa escola A, os alunos submetidos a um teste obtiveram media 70, com desvio padrao 
10. Em outra escola B, os alunos submetidos ao mesmo teste obtiveram media 65 e desvio 
padrao 15. Se colhermos na escola A uma amostra de 36 alunos e na B, uma de 49 alunos, 
qual e a probabilidade de que a diferenga entre as medias seja superior a 6 unidades? 

35. Distribuigao amostral da diferenga de duas proporgoes. Usando os resultados do Proble- 
ma 32, qual seria a distribuigao de pi - p~ 2 , a diferenga entre as proporgoes de amostras 
independentes retiradas de populagoes com parametros p x e p 2 ? 

36. Amostras sem reposigao de populagoes finitas. Suponha uma populagao com N elementos. 
Vimos que se extrairmos uma amostra de tamanho n, com reposiqao, e calcularmos a 
media amostral X, entao E (X) = ju e Var(X) = <7 2 /n, onde p e (J 2 sao a media e a variancia 
da populagao, respectivamente. No entanto, se a amostragem for feita sem reposiqao, 
entao E (X) -/j. continua a valer, mas 

Var(X) = rit 

O fator (N - n)/(N - 1) e chamado fator de correqao para populaqoes finitas. Note que se 
n for muito menor que N , entao esse fator e aproximadamente igual a um, e amostras com 
ou sem reposigao sao praticamente equivalentes. 

Considere, agora, uma populagao P = {1, 3, 5, 5, 7}, logo N = 5. Retire amostras de 
tamanho n =2, sem reposiqao, e construa a distribuigao amostral de X = (X 2 + X 2 )/2. Obte- 
nha E (X ) e Var(X ) e verifique que esta e dada pela formula acima. 

37. Pianos probabiltsticos. Existem varios pianos probabiltsticos que sao utilizados em situa- 
goes praticas. Vamos descrever brevemente alguns deles. 

(a) Amostragem Aleatoria Simples (AAS). Nesse piano as n unidades que compoem a amostra 
sao selecionadas de tal forma que todas as possiveis amostras tern a mesma probabili¬ 
dade de serem escolhidas. Podemos ter AAS com e sem reposigao. No Exemplo 9.6 
cada amostra com reposigao tern probabilidade 1/25 de ser escolhida. 

(b) Amostragem Aleatoria Estratificada. Nesse procedimento, a populagao e dividida em 
subpopulagoes ou estratos, usualmente de acordo com os valores (ou categorias) de 
uma variavel, e depois AAS e utilizada na selegao de uma amostra de cada estrato. 
Por exemplo, considere uma populagao de N =10 estudantes, para os quais defini- 
mos as variaveis renda familiar (X t ) e classe social (X 2 ), categorizada como A, B ou 
C. Entao, P = {1, 2, ...,10} e suponha que a matriz de dados seja 

D TlO 8 15 6 22 12 7 16 13 11 ~ 

- B C A C A B C A BB 
Podemos considerar tres estratos, determinados pela variavel X 2 : 

P k = {3, 5, 8}, P B = {1, 6, 9,10}, P c = {2, 4, 7}. 

Um dos objetivos da estratificagao e homogeneizar a variancia dentro de cada estra¬ 
to, relativamente a principal variavel de interesse. 

(c) AmostragemAleatoriaporConglomerados. Como no item (b), a populagao e dividida em grupos 
(subpopulagoes) distintos, chamados conglomerados. Por exemplo, podemos dividir uma 
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cidadeem bairros ou quadras. UsamosAAS para selecionaruma amostra deconglomera- 
dos e depois todos os indivfduos dos conglomerados selecionados sao analisados. 

(d) Amostragem em Do is Estagios. A populagao e dividida em grupos, como em (c). Num 
primeiro estagio, atraves de AAS, selecionamos algumas subpopulagoes. Num se- 
gundo estagio, usando novamente AAS, retiramos amostras das subpopulagoes 
selecionadas na primeiro estagio. 

(e) Amostragem Sistematica. Nesse piano, supoe-se que temos uma listagem das unidades 
populacionais. Para k fixado, sorteamos um elemento entre os k primeiros da listagem. 
Depois observamos, sistematicamente, indivfduos separados pork unidades. Porexem- 
plo, se k = 10 e sorteamos o oitavo elemento, observamos depois o decimo oitavo, 
vigesimo oitavo etc. 

38. Distribuigao do maximo de uma amostra. Considere M o maximo de uma AAS X 1( ..., X n , 
escolhida de uma populagao com densidade f(x) e f.d.a. F (x). Seja F M (m) a f.d.a. de M . 
Entao, F M (m) =P (M =£ m). Agora, o evento {M m} e equivalente ao evento {X; =£ m, para 
todo 1 =£ i =£ n}. Como as v.a. X, sao independentes, teremos 

F M (m) =P(M «m)=P(Xt m.X n ^m) =P(X 1 *s m)... P(X n =s m) =[F(m)] n . 

Portanto, a densidade de M e dada por 

f M (m) =F;(m) =n[F (m)]"- 1 f(m). 

39. ObtenFia a densidade de M para o caso de uma amostra de uma distribuigao uniforme no 
intervalo (0, 9). 

40. SuponFia que temos a populagao X ~ N (167; 25). Gere 100 amostras de tamanFio 5 
dessa populagao, usando algum programa de geragao de valores de uma distribuigao 
normal, como o Excel ou Minitab. 

(a) Esboce a distribuigao amostral de X (histograma) e calcule as principals medidas- 
resumo; faga box plots e ramos-e-folhas. 

(b) Mesma questao para md = mediana da amostra. 

(c) Compare as duas distributes, ressaltando as principals diferengas. 

(d) Estude a distribuigao da estatfstica "variancia da amostra". 

41 . TamanFio de uma amostra. Na pratica, nao conhiecemos a distribuigao de v.a. X e retira¬ 
mos uma amostra a fim de estimar algum parametro dessa distribuigao. SuponFia, agora, 
que nosso interesse esteja na media /u = E(X). Para estima-la, colFiemos uma amostra X 1; 
X 2 ,..., X n de X. Logo, as v.a. X, sao independentes, cada uma delas tern a mesma distribui¬ 
gao que X e E (X,) =/a, Vi = 1, ..., n. Para estimar /u consideramos a media amostral X. 
Um problema que se apresenta e determinar o tamanFio da amostra a colFier. Isso pode 
ser feito usando a TLC, como vimos na segao 10.11. 

Agora, vamos ver um procedimento diferente, tamberm baseado no TLC, mas que envolve 
uma regra de parada para determinar o numero de dados a colFier. Esse procedimento foi 
sugerido por Ross (1997). Pelo TLC podemos escrever 

P(|X-^| >ccr/Vn)»P(|Z|>c)=2[l-0(c)], (10.9) 

para qualquer constante C > 0, onde Z — N(0, 1) e O(') denota a f.d.a. de Z. Por 
exemplo, se C = 1,96, a probabilidade acima e 0,05. 
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Suponha que, em vez de colher uma pequena amostra piloto para estimar a, tenhamos 
informagao suficiente para escolher um valor aceitavel, digamos d, para o desvio padrao 
de X, que e dado por on n. 

Por (10.9), podemos escrever, por exemplo, 

P(|)T- pi\ =£ l,96d) ~ 0,95. 

Segue-se que podemos amostrar sequencialmente de X ate que S/VrT< d, em que calcu- 
lamos S com os valores ate entao escolhidos. 

O seguinte algoritmo pode, entao, ser adotado: 

(1 ) Escolha um valor aceitavel d para oWn . 

(2) Gere pelo menos 30 dados (para obter uma estimativa razoavel de a). 

(3) Continue a gerar dados, parando quando, com n dados, S/VrT < d, com 

S 2 = E(X; - X ) 2 /(n - 1). 

(4) Estimepor X = ^X;/n. 

Esse metodo implica podermos calcular X e S 2 recursivamente. Isso pode serfeito por meio 
das seguintes formulas, facilmente verificaveis: 

x; =lzx i , 5]=J^i (X r Xj) 2 , j s=2, 

J J i =1 1 1 j - 1i=l J 

$1 = 0 , 

X 0 = 0, 


Sf +1 = (l - -y-jSj + (j +l)(Xj +1 - Xj) 2 . 

Suponha X 1 = 3, x 2 = 5, x 3 =2, x 4 = 6, x 5 = 4. Entao, usando as formulas acima, obte- 
nha, recursivamente, X i( S 2 , i = 1, 2, 3, 4, 5. 

42. Suponha uma populagao P = {1, 2, ..., N} e a v.a. X definida sobre P. Entao, 
T =Xf = iXi e chamado total populacional. A media populacional e /u =T/N e a variancia 
populacional e ex 2 = E^itX, - pi) 2 / N. Considere uma AAS de tamanho n extraida de 
P e X a media amostral. Considere o estimador T= NX. Mostre que E(T) =T e 
Var(T) =N 2 cx 2 /n. 

43. Suponha que queiramos retirar uma amostra de uma distribuigao de Bernoulli com 
parametro p. Escolhidos k dados X x , x 2 ,..., x k , temos que x k = Xj x,/k e um estimador de p. 
Entao um estimador natural da variancia <r 2 = p(l - p) da populagao e x k ( 1 - x k ). Como 
ficaria o algoritmo descrito no Problema 41 para essa situagao? 
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11.1 Primeiras Ideias 

Vimos que a Inferencia Estatfstica tem por objetivo fazer general izagoes sobre 
uma populagao, com base nos dados de uma amostra. Salientamos que dois proble- 
mas basicos nesse processo sao: 

(a) estimagao de parametros; e 

(b) teste de hipoteses sobre parametros. 

Lembremos que parametros sao fungoes de valores populacionais, enquanto esta- 
tisticas sao fungoes de valores amostrais. 

0 problema do teste de hi poteses sobre parametros de uma populagao sera tratado 
no Capitulo 12. Neste capitulo iremos discutir as ideias basicas sobre estimagao. Para 
ilustrar, consideremos o exemplo seguinte. 


Exemplo 11.1. Uma amostra de n = 500 pessoas de uma cidade e escolhida, e a cada 
pessoa da amostra e feita uma pergunta a respeito de urn problema municipal, para o 
qual foi apresentada uma solugao pela prefeitura. A resposta a pergunta podera ser 
SIM (favoravel a solugao) ou NAO (contraria a solugao). Deseja-se estimar a propor- 
gao de pessoas na cidade favoraveis a solugao apresentada. 

Se 300 pessoas responderam SIM a pergunta, entao uma estimativa natural para essa 
proporgao seria 300/500 ou 60%. Nossa resposta e baseada na suposigao de que a amos¬ 
tra e representativa da populagao. Sabemos, tambem, que outra amostra poderia levar a 
outra estimativa. Conhecer as propriedades desses estimadores e urn dos propositos mais 
importantes da Inferencia Estatistica. Vejamos o que pode ser feito nesse caso particular. 

Definamos as v.a. X 1( ..., X n , tais que: 



1, se a i-esima pessoa na amostra responder SIM, 
0, se a i-esima pessoa na amostra responder NAO, 


e seja p = P (sucesso), onde aqui sucesso significa resposta SIM a questao formulada. 




11.1 PRIMEIRAS IDEIAS 


297 


Portanto, se Y n = Zi=iX i , sabemos que Y n tern distribuigao binomial com parametros 
n e p, e o problema consiste em estimar p. E claro que Y n representa o numero de 
pessoas na amostra que responderam SIM; portanto, urn possfvel estimador de p e 


p _ Y n _ i; = iXi _ numero de SIM 

^ H n r\ m m r\rr\ A r\ i ^ i \ / \ A 


( 11 . 1 ) 


n n numero de individuos ' 


Entao, se Y n = k, isto e, observarmos o valor k da variavel Y n , obteremos p = k/n como 
uma estimativa de p. Observe que p, dado por (11.1), e uma v.a., ao passo que k/n e urn 
numero, ou seja, urn valor da v.a. No exemplo acima, uma estimativa e 0,6 ou 60%. 

0 estimador p~ teve sua distribuigao amostral estudada na segao 10.9. De la pode- 
mos concluir que p tern distribuigao aproximadamente normal, com parametros: 


E(p) = p, 

Var(p) = p(l - p)/n. 


( 11 . 2 ) 

(11.3) 


Esses resultados nos ajudam a avaliar as qualidades desse estimador. Por exemplo, o 
resultado (11.2) indica que o estimador p, em media, "acerta" p. Dizemos que p e urn 
estimador nao-viesado (ou nao-viciado) de p. Ou ainda, o resultado (11.3) indica que para 
amostras grandes, a diferenga entre pep tende a ser pequena, pois para n -> °°, Var(p) -► 0. 
Nesse caso, dizemos que p e urn estimador consistente de p. Observe que essas proprieda- 
des sao validas para o estimador no conjunto de todas as amostras que poderiam ser extrafdas 
da populagao. Para uma particular amostra, p pode estar distante de p. 

Em algumas situagoes, podemos ter mais de urn estimador para urn mesmo 
parametro, e desejamos saber qual deles e "melhor". 0 julgamento pode ser feito 
analisando as propriedades desses estimadores. Vejamos urn exemplo. 

Exemplo 11.2. Desejamos comprar urn rifle e, apos algumas selegoes, restaram quatro 
alternativas, que chamaremos de rifles A, B, C e D. Foi feito urn teste com cada rifle, 
que consistiu em fixa-lo num cavalete, mirar o centra de urn alvo e disparar 15 tiros. 
Os resultados estao ilustrados na Figura 11.1. 

Para analisar qual a melhor arma, podemos fixar criterios. Por exemplo, segundo 
o criterio de "em media acertar o alvo”, escolherfamos as armas A e C. Segundo o 
criterio de "nao ser muito dispersivo" (variancia pequena), a escolha recairia nas 
armas C e D. A arma C e aquela que reune as duas propriedades e, segundo esses 
criterios, seria a melhor arma. Mas, se outro criterio fosse introduzido (por exemplo, 
menor prego), talvez nao fosse a arma escolhida. M uitas vezes, a solugao deve ser 
urn compromisso entre as propriedades. 

Esse exemplo tambem nos permite introduzir os conceitos de acuracia e preci- 
sao.A acuracia mede a proximidade de cada observagao do valor alvo que se 
procura atingir. A precisao mede a proximidade de cada observagao da media de 
todas as observagoes. 
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Figura 11.1: Resultados de 15 tiros dados por 4 rifles. 



Desse modo, podemos descrever cada arma da seguinte maneira: 

Arma A: nao-viesada, pouco acurada e baixa precisao. 

Arma B: viesada, pouco acurada e baixa precisao. 

Arma C: nao-viesada, muito acurada e boa precisao. 

Arma D: viesada, pouco acurada e alta precisao. 

Do exposto acima, notamos a importance de se definir propriedades desejaveis 
para estimadores. Trataremos desse assunto na proxima segao. Outro problema que 
aparece em inference e como obter urn estimador de determinado parametro. Nem 
sempre temos uma sugestao para urn estimador, como no caso da proporgao, no Exem- 
plo 11.1. Nas segoes 11.3, 11.4 e 11.5 trataremos de tres desses metodos. 

11.2 Propriedades de Estimadores 

Inicialmente vejamos a questao da estimagao de urn modo mais geral. Considere- 
mos uma amostra (X 1( X 2 , ..., X n ) de uma v.a. que descreve uma caracteristica de inte- 
resse de uma populagao. Seja d urn parametro que desejamos estimar, como por exem- 
plo a media jj. = E(X) ou a variance <r 2 = Var(X). 

Definigao. Urn estimador T do parametro d e qualquer fungao das observagoes da 
amostra, ou seja, T = g(X lf ..., X n ). 

Notemos que, segundo essa definigao, urn estimador e o que chamamos antes de 
estatistica, porem associando-o a urn parametro populacional. 
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0 problema da estimagao e, entao, determinar uma fungao T = g(X 1 , X 2 ..„ X n ) que seja 
"proxima" de 9, segundo algum criterio. 0 primeiro criterio que iremos abordar e dado a seguir. 

Definigao 0 estimador T e nao-viesado para 9 se 

E (T) =9, (11.4) 

para todo 9. 

Se (11.4) nao valer T diz-se viesado e a diferenga V(T) = E(T) - 9 e chamado o 
vies de T. 

Notemos que a esperanga de T em (11.4) e calculada sobre a distribuigao amostral 
de T, como tratada no capftulo anterior. 

Definigao. Estimativa e o valor assumido pelo estimador em uma particular amostra. 
Assim, no Exemplo 11.1, p e urn estimador de p, enquanto 60% e uma estimativa de p. 

Exemplo 11.3 Vimos que a media amostral X e urn estimador nao-viesado de /u = 
E(X), colhida uma amostra (X 1( ..., X n ) da v.a. X. Do mesmo modo, como vimos na 
segao 10.9, a proporgao amostral p e urn estimador nao-viesado da proporgao p de 
indivfduos de uma populagao que tern certa caracterfstica comum. 

Exemplo 11.4. Considere uma populagao com N elementos e a variancia populacional 

tf 2 = j- i(X, - m) 2 . (11.5) 

onde n = ^-E^Xj e a media populacional. Urn possfvel estimador para a 1 , baseado numa 
AAS de tamanho n extrafda dessa populagao, e 

| E (X, - X ) 2 . (11.6) 

M ostremos que esse estimador e viesado. Pela formula (3.11), temos que 

c? 2 = ^EX2-X 2 , 

11 i =1 

logo 

E(c? 2 )=ii E(XP) - E (X 2 ). 

11 i =1 


Mas, pela definigao de AAS e definigao de variancia de uma v.a., E(X 2 ) = Var(X ( ) + 
[E(X i )] 2 = a 2 + jj}. Tambem, usando o Teorema 10.1, temos que E(X 2 ) = Var(X) + 
[E(X )] 2 = ^ + ^ 2 . 



300 


CAPITULO II — ESTIMACAO 


Seque-se que 



ou seja, 



Finalmente, 



(11.7) 


De (11.7) vemos que a 2 e viesado para cr 2 e o vies e dado por 


V=V( a 2 ) = E(<?) - cr 2 = - 


( 11 . 8 ) 


Como esse vies e negativo, o estimador a 2 em geral subestima o verdadeiro 
parametro cr 2 . Por outro lado, por (11.8), o vies diminui com n, ou seja, formalmente, 
para n ->• °°, o vies de a 2 tende a zero. Note tambem que o vies de o 2 e uma fungao de 
cr 2 . Uma estimativa do vies seria dada por 



ou seja, substitufmos o valor desconhecido de <r 2 por uma estimativa, como por exemplo cr 2 . 

E facil ver que para obter urn estimador nao-viesado de cr 2 basta considerar (n/(n - 
l))cP, pois de (11.7) segue-se que 



Logo, se definirmos 



(11.9) 


entao E(S?) = cr 2 e S e um estimador nao-viesado para cr 2 . Essa e a razao para se usar n - 1, 
em vez de n, como denominador da variancia da amostra. No Capitulo 3 usamos sempre 
n como denominador, porque nao havia preocupagao em saber se estavamos trabalhando 
com uma populagao ou uma amostra. Daqui por diante, sera feita essa distingao. 

Vimos que o estimador pe nao-viesado e tern variancia que tende a zero, quando 
n -> oo. Ver (11.2) e (11.3). Dizemos que pe consistente. Esse conceito de consistency e um 
pouco mais diffcil de se definir. Vejamos um exemplo para motivar a definigao que sera dada. 

Considere a media X calculada para diversos tamanhos de amostras; obtemos, na 
realidade, uma sequencia de estimadores {X n , n = 1, 2,...}. A medida que n cresce, a 
distribuigao de X n torna-se mais concentrada ao redor da verdadeira media /u. Veja, 
por exemplo, a Figura 10.4 do Capitulo 10. Dizemos que {xp e uma sequencia con¬ 
sistente de estimadores de /u. 
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Definigao. Uma sequencia {T n } de estimadores de um parametro 9 e consistente se, 
para todo e > 0, 

P{|T n - 9\ >e} -> 0, n->°°. (11.10) 

Nao e muito diffcil ver que essa condigao esta satisfeita para {XJ-. Veja o Problema 34. 
Em vez de usar (11.10) para verificar se uma sequencia de estimadores e consis¬ 
tente, podemos usar o seguinte resultado. 

Proposicao Uma sequencia {T n } de estimadores de 9 e consistente se 

lim E(T n ) = 9 (11.11) 

e 

lim Var(T n ) =0. (11.12) 

SeT n for nao-viesado, a primeira condigao estara, obviamente, satisfeita. Usando 

esse resultado, vemos que peX n sao estimadores consistentes de p e /u, respectiva- 
mente, nos Exemplos 11.1 e 11.3. 

Exemplo 11.5. Vimos que S 2 , dado por (11.9), e nao-viesado para a 2 . E possivel 
demonstrar, no caso que X 1 ,..., X n sao observagoes de uma distribuigao N(n, <j 2 ), que 

Var(S 2 ) = (11.13) 

n- 1 

Como E(S?) = a 2 , e lim n ^„Var(S 2 ) = 0, segue-se que S 2 e um estimador consistente 
para a 2 . Dado o que foi dito acima, talvez fosse melhor escrever 

Exemplo 11.6. Vimos que E(ct 2 ) = <r 2 (l - 1/n), de modo que Nm Efa 2 ) = a 2 . Tambem, de 
(11.6) e (11.13) e supondo que as observagoes sao de uma distribuigao normal N(/u, a 2 ), 
temos que 


Var(<j 2 ) = (HlzSJ Var(S 2 ) = ^ (2cr 4 ), (11.14) 

o que mostra que Var(<j 2 ) -»• 0, quando n logo cf 2 = <j 2 tambem e consistente para a 2 . 

De (11.14) obtemos, tambem, que 

Va^cr 2 ) < = Var(S 2 ). (1L15) 

Portanto, usando-se somente o criterio de "ter menor variancia", a 2 seria um "me¬ 

lhor" estimador de a 2 . Mas observe que estamos nos referindo a amostras de uma 
distribuigao normal. 

Vejamos agora um criterio que nos permite escolher entre dois estimadores do 
mesmo parametro. 
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Definigao. Se T e T' sao dois estimadores nao-viesados de um mesmo parametro 9, e ainda 

Var(T) < Var(T'), (11.16) 

entao T diz-se mais eficiente do que T'. 

Exemplo 11.7. Consideremos uma populagao normal X, com parametros /u e a 2 . 
Queremos estimar a mediana dessa populagao. Por ser uma distribuigao simetrica, 
sabemos que n = Md(X). Definindo como X a media e como md a mediana de uma 
amostra de tamanho n dessa populagao, qual dos dois estimadores e o melhor para 
estimar a mediana populacional? 

Pelo que vimos no capitulo anterior, 

X ~ N(/i, cr 2 /n). (11.17) 

Pode-se demonstrar que a distribuigao da mediana amostral pode ser aproximada 
por uma normal, especificamente, 

md ~ N (M d(X ), na 2 llr\). (11.18) 

Vemos, portanto, que os dois estimadores sao nao-viesados, mas X e mais eficiente, pois 

Var(md)/Var(X) = nil > 1. 

Conclui-se que, para estimar a mediana dessa populagao, e preferfvel usar a media 
da amostra como estimador, o que contraria um pouco a nossa intuigao. 

Para precisar o conceito de estimador acurado, discutido na segao anterior, vamos agora 
introduzir o conceito de erro quadratico medio. 

Chamemos de 


e = T - 9, 

o erro amostral que cometemos ao estimar o parametro 9 da distribuigao da v.a. X pelo 
estimador T = g(X 1 ,..., X n ), baseado na amostra (X v ..., X n ). 

Definigao. Chama-se erro quadratico medio (EQM) do estimador T ao valor 

EQM (T; 9) = E (e 2 ) = E(T - 9) 2 . (11.19) 

De (11.19) temos 

EQM (T; 9) = E (T - E(T) +E(T) - 9) 2 

= E (T - E (T )) 2 + 2 E [ (T - E (T ))(E (T ) - 0)] + E(E (T ) - 0) 2 

= E (T - E (T )) 2 + E (E (T ) - 9)\ 

ja que E(T) - 9e uma constante e E(T - E (T)) = 0. Podemos, pois, escrever, 

EQM (T; 9) =Var(T) +V 2 , (11.20) 

onde V = V(T) = E(T) - 9 indica, como vimos, o vies de T. A Figura 11.2 ilustra essas 

duas medidas, usando o caso das armas discutido no Exemplo 11.2. 
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Vemos, portanto, que um estimador preciso tem variancia pequena, mas pode ter 
EQM grande. 

Figure! 11.2: Representacao grafica 
para o EQM . 



1. Obtenha a distribuigao de p quando p =0,2en = 5. Depois calcule E (p) e Var( p). 

2. Encontre um limite superior para Var( p) quando n = 10, 25,100 e 400. Faga o grafico em 
cada caso. 

3. Suponha um experimento consistindo de n provas de Bernoulli, com probabilidade de 
sucesso p. Seja X o numero de sucessos, e considere os estimadores 


(a) p : = X/n ; 


(bj p — { se a P r ' me ' ra P rova resultar sucesso, 
2 [0, caso contrario. 


Determine a esperanga e a variancia de cada estimador. Por que p 2 nao e ur 
"bom" estimador? 


4. Verifique se p' 1 e p 2 do Problema 3 sao consistentes. 

5. Tem-se duas formulas distintas para estimar um parametro populacional 9. Para ajudar a 
escolher o melhor, simulou-se uma situagao onde 9 = 100. Dessa populagao retiraram-se 
1.000 amostras de dez unidades cada uma, e aplicaram-se ambas as formulas as dez 
unidades de cada amostra. Desse modo obtem-se 1.000 valores para a primeira formula t 2 
e outros 1.000 valores para a segunda formula t 2 , cujos estudos descritivos estao resumidos 
abaixo. Qual das duas formulas voce acha mais conveniente para estimar 9. Por que? 


Formula 1 

Formula 2 

CN 

O 

II 

II 

o 

o 

Varff,) = 5 

Var(f 2 )= 10 

Mediana = 100 

Mediana = 100 

Moda = 98 

Moda =100 
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11.3 Estimadores de Momentos 

Neste capftulo e em anteriores, temos usado certos estimadores de parametros populacionais, 
como a media e a variancia, simplesmente_tentando "imitar" na amostra o que acontece na 
populagao. Foi assim que construfmos X, por exemplo. 

A media populacional e urn caso particular daquilo que chamamos de momento. 
Na realidade, ela e o primeiro momento. Se X for uma v.a. contfnua, com densidade 
f(x; e v ..., 0 r ), dependendo de r parametros, entao 

^ = E (X) =£xf(x; 6 1 . 0 r )dx. (11.21) 

Essa media dependera, genericamente, dos parametros desconhecidos d v ..., 6 r . 
Por exemplo, suponha que X tenha distribuigao normal, com parametros /u e a 2 . Aqui, 
0 : = n, 0 2 = a 2 e r = 2. Temos, nesse caso, que E(X) = ijl. 

Podemos, em geral, definir o k-esimo momento de X por 

// k = E(X k ) = £x k f(x; e i . 0 r )dx, k = 1, 2, ... (11.22) 

Assim, para k = 2, obtemos o segundo momento 

E (X 2 ) = /„x 2 f(x; 6 V ..., 0 r )dx. 

No caso acima da normal, temos que E(X 2 ) =Var(X) + [E(X)] 2 = o 2 + /j 2 . Suponha, 
agora, que colhemos uma amostra de tamanho n da populagao (X 1( ..., X n ). Definimos 
o chamado k-esimo momento amostral por 

m k = |EX k , k = l, 2, ... (11.23) 

K n i = i 

— v - ' ^ 

Temos, portanto, que m : = X e m 2 = Zi =iX 2 /n. 

Definigao Dizemos que § v ..., 0 r sao estimadores obtidos pelo metodo dos momentos 
se eles forem solugoes das equagoes 

m k = n v k = 1, 2.r. (11.24) 

0 procedimento consiste em substituir os momentos teoricos pelos respectivos 
momentos amostrais. 

Exemplo 11.8, Se X ~ N(^, a 2 ), teremos as seguintes relagoes validas para os dois 
primeiros momentos populacionais: 

E (X) =ju, E (X 2 ) = <7 2 + n 2 , 


do que obtemos 


ju = E(X), ex 2 = E(X 2 ) - E 2 (X). 
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Temos, tambem, os dois primeiros momentos amostrais: 

m .4! x i= x " 

m *4l4 

Os estimadores obtidos pelo metodo dos momentos serao 

M, = m i = 4 

r2 


= m 2 - m i = -^-EXi - X 2 = 
L n i =i 


(j 2 . 


Ou seja, obtemos os ja mencionados estimadores X e d 2 . 

Na realidade, podemos ter, as vezes, mais de urn estimador de momentos. Suponha, 
por exemplo, que a v.a. Y tenha uma distribuigao de Poisson com[ parametro A > 0. Vimos 
que E (Y) = Var(Y) = A, de modo que A pode ser estimado porY ou por EEi^ - Y ) 2 /n, 
ou seja, A m =X ou A m = a 2 , que podem resultar em valores muito diferentes. Veja o 
Problema 46. 


11.4 Estimadores de Minimos Quadrados 

Urn dos procedimentos mais usados para obter estimadores e aquele que se baseia 
no princfpio dos minimos quadrados, introduzido por Gauss em 1794, mas que pri- 
meiro apareceu com esse nome no apendice do tratado de Legendre, Nouvelles M ethodes 
pour la Determination des Orbites des Cometes, publicado em Paris em 1806. Gauss 
somente viria a publicar seus resultados em 1809, em Hamburgo. Ambos utilizaram o 
princfpio em conexao com problemas deAstronomia e Ffsica. 

Vejamos o procedimento por meio de urn exemplo simples. 


Exemplo 11.9. Urn engenheiro esta estudando a resistencia Y de uma fibra em fungao 
de seu diametro X e notou que as variaveis sao aproximadamente proporcionais, isto 
e, elas obedecem a relagao 

Y«0X, (11.25) 

onde 6 e o coeficiente de proporcionalidade. Agora ele deseja estimar o parametro 6, 
baseado numa amostra de cinco unidades, que, submetidas a mensuragao e testes, 
produziram os resultados: 

X : 1,2 1,5 1,7 2,0 2,6, X = 1,8; 

Y : 3,9 4,7 5,6 5,8 7,0, Y = 5,4. 

Inspecionando os resultados, conclui-se que 9 = 3 parece ser urn valor razoavel. Como 
verificar a qualidade dessa estimativa? Podemos utilizar o modelo Y = 3X e ver como esse 
preve os valores de Y, para os dados valores de X, e como sao as discrepancies entre os 
valores observados e os estimados pelo modelo. Essa analise esta resumida na Tabela 11.1. 
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Os valores da coluna (Y - 3X) medem a inadequagao do modelo para cada observagao 
da amostra, enquanto o valor E^Y - 3X i ) 2 = 1,06 e uma tentativa de medir "o erro quadratico 
total da amostra". Como em situagoes anteriores, elevou-se ao quadrado para evitar o proble- 
ma do sinal. Quanto menor for o erro quadratico total, melhor sera a estimativa. Isso nos 
sugere procurar a estimativa que tome minima essa soma de quadrados. M atematicamente, o 
problema passa a ser o de encontrar o valor de 0 que minimize a fungao 

s(0)=i(V ex i )=. (11.26) 

Tabela 11.1: Analise do modelo Y = 3X. 


X 

Y 

3X 

Y - 3X 

(Y - 3X) 2 

1,2 

3,9 

3,6 

0,3 

0,09 

1,5 

4,7 

4,5 

0,2 

0,04 

1,7 

5,6 

5,1 

0,5 

0,25 

2,0 

5,8 

6,0 

-0,2 

0,04 

2,6 

7,0 

7,8 

0,8 

0,64 

Total 

0 

1,06 


0 mfnirno da fungao e obtido derivando-a em relagao a 9, e igualando o resultado 
a zero (Ver Morettin et al., 2005), o que resulta 

= E(Y,- flX.H^X.) =0. 

d0 i=l 

Resolvendo essa equagao, obtemos 

g . Si-.XiY, 

EfCxT 

Usando os dados acima encontramos 0 MO = 2,94, que conduz a urn valor mfnirno 
para S(0) de 0,94. Observe que esse valor e realmente menor do que o observado para 
0 = 3, ou seja, 1,06. 

Como foi dito, nao esperavamos uma relagao perfeita entre as duas variaveis, ja 
que o diametro da fibra nao e o unico responsavel pela resistencia; outros fatores nao 
controlados afetam o resultado. Desse modo, duas amostras obtidas do mesmo diame¬ 
tro X nao teriam obrigatoriamente que apresentar o mesmo resultado Y, mas valores em 
torno de urn valor esperado 0X. 

Em outras palavras, estamos supondo que, para urn dado valor da variavel explicativa 
X, os valores da variavel resposta Y seguem uma distribuigao de probabiIidade f Y (y), 
centrada em OX. Isso equivale a afirmar que, para cada X, o desvio e = Y - 0X segue 
uma distribuigao centrada no zero. Para melhor entendimento dessa proposigao, veja 
o Capftulo 16. Podemos, entao, escrever 

E (Y | x) = Ox, para todo valor x. 
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E comum supor que e tern a mesma distribuigao, para todo valor x da variavel explicativa 
X. Desse modo, e comum escrever 

Y = 0x + e, 

com e seguindo a distribuigao f.(.), com media zero. Como iIustragao, poderiamos 
supor que e ~ N(0, a 2 ), para todo x. Quanto menor for a variancia a 2 , melhor sera a 
"previsao" de Y como fungao de x. Assim, parece razoavel escolher 9 que torna mini¬ 
ma a soma dos quadrados do erros: 

Z e?=t (Y, - 9X t ) 2 . 

i=i i =i 1 1 

0 modelo acima pode ser generalizado, de modo a envolver outras fungoes do 
parametro 9, resultando no modelo 

Y = g(X; 0) + £, (11.27) 

e devemos procurar o valor de 9 que minimize a fungao 

S(0) =t ef=i (Y, - g(X,; 9)) 2 , (11.28) 

i=i i =i 

para uma amostra [X v Yj),..., (X n , Y n ) das variaveis X e Y. A solugao 0 MQ e chamada de 
estimador de minimos quadrados (EMQ) de 9. 

Nos Capitulos 15 e 16 voltaremos a esse topico e trataremos com mais detalhes os 
chamados modelos lineares. 


ernas 


6. Estamos estudando o modelo y t = /d + £ t , para o qual uma amostra de cinco elementos 
produziu os seguintes valores para y t : 3, 5, 6, 8,16. 

(a) Calcule os valores de S[fi) =X t (y t _ n) 2 , para jU = 6, 7, 8, 9,10, efaga o grafico de S(ju) 
em relagao a n. Qual o valor de /u que parece tornar mtnimo S(/v)? 

(b) Derivando 5(ju) em relaqao a jd, e igualando o resultado a zero, voce encontrara o 
EMQ de /J.. Usando os dados acima, encontre a estimativa para /u e compare com 
o resultado do item anterior. 


7. Os dados abaixo referem-se ao indice de inflagao (y t ) de 1967 a 1979. 


Ano(t) 

1967 

1969 

1971 

1973 

1975 

1977 

1979 

Inflagao (y t ) 

128 

192 

277 

373 

613 

1.236 

2.639 


(a) Faga o grafico de y t contra t. 

(b) Considere ajustar o modelo y t = a + fit + £ t aos dados. Encontre as estimativas de 
minimos quadrados de ae fi. 

(c) Qual seria a inflagao em 1981? 

(d) Voce teria alguma restriqao em adotar o modelo linear nesse caso? 
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8. No Problema 7, determinamos os estimadores de minimos quadrados para o modelo 
y t = f(t) + e t , no qual f(t) = a + /3t. Suponha agora que 

f(t) = a + /3x t , t=l.n, 

ou seja, temos n valores fixos x i; X n de uma variavel fixa (nao-aleatoria) X. Obtenha os 
EMQ de a e /3 para esse modelo. 


9. Aplique os resultados do Problema 8 para os dados a seguir: 


t 

i 

2 

3 

4 

5 

6 

7 

8 

9 

10 

x . 

1,5 

1,8 

1,6 

2,5 

4,0 

3,8 

4,5 

5,1 

6,5 

6,0 

y . 

66,8 

67,0 

66,9 

67,6 

68,9 

68,7 

69,3 

69,8 

71,0 

70,6 


11.5 Estimadores de Maxima Verossimilhanca 

0 Novo Dicionario Aurelio da Lingua Portuguesa (2 a edigao, 1986) define veros- 
sfmil (ou verossimilhante) aquilo que e semelhante a verdade, provavel, e verossimi¬ 
lhanga (ou verossimilidade, ou ainda verossimilitude), a qualidade ou carater de 
verossimi 1. 0 que seria uma amostra verossfmil? Seria uma amostra que fornecesse 
a melhor informagao possfvel sobre urn parametro de interesse da populagao, desco- 
nhecido, e que desejamos estimar. 

0 princfpio da verossimilhanga afirma que devemos escolher aquele valor do 
parametro desconhecido que maximiza a probabilidade de obter a amostra particular 
observada, ou seja, o valor que torna aquela amostra a "mais provavel". 0 uso desse 
princfpio conduz a urn metodo de estimagao pelo qual se obtem os chamados 
estimadores de maxima verossimilhanga que, em geral, tern propriedades muito boas. 
Esse princfpio foi enunciado por Fisher pela primeira vez em 1912 e, em 1922, deu-lhe 
forma mais completa, introduzindo a expressao "likelihood" (verossimilhanga). Veja 
Fisher (1935) para mais detalhes. Vamos comegar com urn exemplo. 

Exemplo 11.10 Suponha que temos n provas de Bernoulli com P (sucesso) = p, 0 < p < 1 
e X = numero de sucessos. Devemos tomar como estimador aquele valor de p que 
torna a amostra observada a mais provavel de ocorrer. 

Suponha, por exemplo, que n = 3 e obtemos dois sucessos e urn fracasso. A fungao 
de verossimilhanga e 

L(p) = P (2 sucessos e 1 fracasso) = p 2 (l - p). 

Maximizando essa fungao em relagao a p, obtemos 


L'(p) = 2p(l - p) - p 2 = 0 => p(2 - 3p) = 0, 

do que seguem p = 0 ou p = 2/3. E facil ver que o ponto maximo e p = 2/3, que e o 
estimador de maxima verossimilhanga (EMV) de p. 
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De modo geral, o EMV do parametro p de uma distribuigao binomial e 

P = 

i^m v ri 


(11.29) 


que e o estimador usado anteriormente no Exemplo 11.1. 

Para chegar a (11.29), observe que a fungao de verossimilhanga nesse caso e 


L(p) = P x (1 - p)"' x 


que e a probabilidade de se obter x sucessos e n - x fracassos. 0 maximo dessa fungao 
ocorre no mesmo ponto que 4p) = log e L(p). Denotando o logaritmo natural simples- 
mente por log, temos 


4p) = x log p + (n - x) log(1 - p). 


Derivando e igualando a zero obtemos p~ MV = x/n. 

0 procedimento, pois, e obter a fungao de verossimilhanga, que depende dos parametros 
desconhecidos e dos valores amostrais, e depois maximizar essa fungao ou o logaritmo 
dela, o que pode ser mais conveniente em determinadas situagoes. Chamando de L(0; X r 
..., X n ) a fungao de verossimilhanga, a log-verossimilhanga sera f(9\ X v ..., X n ) = 
= log e L(0;X 1 .X n ). 

No caso de variaveis continuas, a fungao de verossimilhanga e definida da seguinte 
maneira. Suponha que a v.a. X tenha densidade f(x; 0), onde destacamos a dependence 
do parametro 0 desconhecido. Retiramos uma amostra de X, de tamanho n, (X 1( ..., X n ), 
e sejam (x 1( ..., x n ) os valores efetivamente observados. 

Definigao A fungao de verossimilhanga e definida por 



(11.30) 


que deve ser encarada como uma fungao de 9. 0 estimador de maxima verossimilhanga 
de 9 e o valor 0 MV que maximiza L(0; x 1( ..., x n ). 

Se indicarmos por x = (x r ..., x n )' o vetor contendo a amostra, e costume denotar a 
verossimilhanga por L(01 x) e a log-verossimilhanga por 40 lx). 0 parametro 0 pode 
ser urn vetor, como no caso de querermos estimar a media /u e a variancia cr 2 de uma 
normal. Nesse caso, 0 = [/i, a 2 )'. 

Exemplo 11 . 11 . Suponha que a v.a. X tenha distribuigao exponencial, com parametro 
a > 0, desconhecido, e queremos obter o EMV desse parametro. A densidade de X e 
dada por (7.26): 
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Entao, a verossimilhanga e dada por 

L (a|x) = (l/a) n e- Sxi/ “ 

e a log-verossimilhanga fica 

n 

f(a\x) = -n log a - £ x./a. 

Derivando e igualando a zero obtemos que o EM V de a e 

ZT =1 X, (11.31) 

«mv = —n—- 

que nada mais e do que a media amostral. Lembremos que na distribuigao exponencial 
E(X) = a, e portanto o estimador obtido e o esperado pelo senso comum. 

No caso discreto, a fungao de verossimilhanga pode ser escrita na forma 

L(ft x t .x n ) = P (X x = xJ0) ... P (X n = x n |0). 

Veja o Problema 37 para o caso de termos mais de urn parametro. 


emos 


10. Na fungao de verossimilhanga L(p) da binomial, suponha que n =5 e X = 3. Construa o 
grafico da fungao para os posslveis valores de p = 1/5, 2/5, 3/5, 4/5, e verifique que o 
maximo ocorre realmente para p =3/5. 

11. Observa-se uma sequencia de ensaios de Bernoulli, independentes, com parametro p, ate 
a ocorrencia do primeiro sucesso. Se X indicar o numero de ensaios necessarios: 

(a) Mostre que P(X =x) =(1 - p) x_1 p (distribuigao geometrica). 

(b) Repetiu-se esse experimento n vezes, e em cada urn deles o numero de ensaios neces- 
sarios foram x i; X 2 ,..., X n . Encontre o EMV para p. 

(c) Usando uma moeda, repetiu-se esse experimento 5 vezes, e o numero de ensaios 
necessarios ate a ocorrencia da primeira coroa foi 2, 3, 1, 4, 1, respectivamente. 
Qual a estimativa de MV para p = probabilidade de ocorrencia de coroa nessa 
moeda? Existiria outra maneira de estimar p? 

12. Suponha que X seja uma v.a. com distribuigao normal, com media jj e variancia 1. 
Obtenha o EMV de fi, para uma amostra de tamanho n, (x i: ..., X n ). 

13. Considere Y uma v.a. com distribuigao de Poisson, com parametro A > 0. Obtenha a 
EMV de A, baseado numa amostra de tamanho n. 


11.6 Intervalos de Confianca 

Ate agora, todos os estimadores apresentados foram pontuais, isto e, especificam urn 
unico valor para o estimador. Esse procedimento nao permite julgar qual a possivel 
magnitude do erro que estamos cometendo. Daf, surge a ideia de construir os intervalos 
de confianga, que sao baseados na distribuigao amostral do estimador pontual. 
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Exemplo 11.12. Suponha que queiramos estimar a media n de uma populagao qual- 
quer, e para tanto usamos a media X de uma amostra de tamanho n. Do TLC, 

e = (X - /i) ~ N (0, al), (11.32) 

com Var(X) = a\ = <j 2 /n . Daqui podemos determinar qual a probabilidade de cometer- 
mos erros de determinadas magnitudes. Por exemplo, 


P (le I < 1,96(7,) = 0,95 
ou 


que e equivalente a 


e, finalmente, 


P(|X - ju| < 1,96(7,) = 0,95, 

P (-1,96(7, < X - // < 1,96(7,) = 0,95, 


P (X - 1,96a ,<n <X + 1,96a,) = 0,95. (11.33) 

Convem lembrar que /u nao e uma variavel aleatoria e sim urn parametro, e a 
expressao (11.33) deve ser interpretada da seguinte maneira: se pudessemos cons- 
truir uma quantidade grande de intervalos (aleatorios!) da forma ]X - 1,96(7,, X + 
l,96a,[, todos baseados em amostras de tamanho n, 95% deles conteriam o parametro 
H. Veja a Figura 11.3. Dizemos que y= 0,95 e o coeficiente de confianga. Nessa 
figura estao esquematizados o funcionamento e o significado de urn intervalo de 
confianga (1C) para /u, com y= 0,95 e o 2 conhecido. 


Figura 11.3: Significado de um 1C para /j, com y- 0,95 e a 2 conhecido. 
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Escolhida uma amostra e encontrada sua media x 0 , e admitindo-se a % conhecido, 
podemos construir o intervalo 

]x 0 - l,96o-,x 0 + 1,96(7, [. (11.34) 

Esse intervalo pode ou nao conter o parametro n, mas pelo exposto acima temos 
95% de confianga de que contenha. 

Para ilustrar o que foi dito acima, consideremos o seguinte experimento de simula- 
gao. Geramos 20 amostras de tamanho n = 25 de uma distribuigao normal de media /u 
= 5 e desvio padrao o = 3. Para cada amostra construimos o intervalo de confianga 
para n, com coeficiente de confianga y = 0,95, que e da forma X ± 1,176, usando 
(11.34). Na Figura 11.4, temos esses intervalos representados e notamos que tres deles 
(amostras de numeros 5, 14 e 15) nao contem a media /u = 5. 

Figura 11 A Intervalos de confianga para a media de uma 
N (5,9), para 20 amostras de tamanho n = 25. 


8 

6 

t 1 = 5 
4 

2 


0 2 4 6 8 10 12 14 16 18 20 

Amostras 


Exemplo 11.13. Uma maquina enche pacotes de cafe com uma variancia igual a 100 g 2 . 
Ela estava regulada para encher os pacotes com 500 g, em media. Agora, ela se 
desregulou, e queremos saber qual a nova media /u. Uma amostra de 25 pacotes apre- 
sentou uma media igual a 485 g. Vamos construir urn intervalo de confianga com 95% 
de confianga para /i. De (11.34), teremos 

\C(/r, 0,95) = 485 ± 1,96 x 2, 


ou seja, 

IC(ju; 0,95) = ]481, 489[, 

pois <7 X = oATn = 10/5 = 2g. 

Se T for urn estimador do parametro d, e conhecida a distribuigao amostral deT, 
sempre sera possfvel achar dois valores t 2 e t 2 , tais que 

P (tj_ < G < t 2 ) = y, 


(11.35) 
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a probabilidade interpretada como em (11.33), e y um valor fixo, 0 < y< 1. Para uma 
dada amostra, teremos dois valores fixos para t x e t 2 , e o intervalo de confianga para 6, 
com coeficiente de confianga y sera indicado do seguinte modo: 


IC(0; y) =]t 1( t 2 [. 


(11.36) 


Se a variancia populacional a 2 nao for conhecida, podemos substituir em (11.34) a % 
por S/Vn", onde S 2 e a variancia amostral dada em (11.9). Para n grande, da ordem de 100, 
o intervalo (11.34), com essa modificagao, pode ainda ser usado. Para n nao muito grande, 
a distribuigao normal nao pode mais ser usada e tera de ser substituida pela distribuigao t de 
Student, que estudamos no Capitulo 7. Esse assunto voltara a ser abordado no Capftulo 12. 

Para um coeficiente de confianga qualquer y teremos de usar o valor z(y) tal que 
P(-z(y) < Z < z(y)) = y, com Z ~ N (0, 1). 0 intervalo fica 


1 C(ju; y) = ]X - z(y)a K ; X + z(y)a % [. 


(11.37) 


Observe, tambem, que a amplitude do intervalo (11.37) e L = 2z(y)o/Vrf, que e uma 
constante, independente de X. Se construirmos varios intervalos de confianga para o mes- 
mo valor de n, <re y estes terao extremos aleatorios, mas todos terao a mesma amplitude L. 

Exemplo 11.14. Vamos obter um intervalo de confianga para o parametro p de uma 
distribuigao b(n, p). Sabemos que se X = numero de sucessos nas n provas, entao X 
tern distribuigao aproximadamente normal, com media /u = np e variancia <j 2 = npq, 
com q = 1 - p. Logo, 


Z = 1), 


V npq 


ou ainda, 


Vpq/n Vpq 

Assim, se y = 0,95, temos, consultando aTabela III, que 

P (-1,96 *£ Z ss 1,96) = 0,95, 


Z = - V "( fl Pl ~ N (0, 1). 


(11.38) 


ou seja, 



Portanto, com probabilidade 0,95, temos que 


-1,96 V pq/n p - p 1,96 V pq/n, 


do que segue 


p - 1,96 V pq/n « p p + 1,96 V pq/n. 
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Como nao conhecemos p, pode mos proceder de duas maneiras. Uma e usar o fato 
que pq 1/4, de modo que V pq/n « 1/V 4n, obtendo 


'-w 


+ JM 

V4n 


(11.39) 


Temos, entao, que ]p - 1,96/V4n; p + 1,96/V4n[ e urn intervalo de confianga para 
p, com coeficiente de confianga de 95%. 

Para urn yqualquer, 0 < y < 1, (11.39) fica 


■-S 


P + 


zjy) 

V4n 


(11.40) 


onde z(y) e definido como em (11.37). 


Exemplo 11.15, Numa pesquisa de mercado, n = 400 pessoas foram entrevistadas 
sobre determinado produto, e 60% delas preferiram a marca A. A qui, p = 0,6 e urn 
intervalo de confianga para p com coeficiente de confianga y= 0,95 sera 

0,6 ± (1,96) 1/VI600 = 0,6 ± 0,049, 


ou seja 


IC(p; 0,95) = ]0,551; 0,649[. 

O intervalo (11.40) e chamado conservador, pois se p nao for igual a 1/2 e estiver 
proximo de zero ou de urn, entao ele fornece urn intervalo desnecessariamente maior, 
porque substitufmos pq pelo seu valor maximo, 1/4. Uma outra maneira de proceder e 
substituir pq por pq, com q = 1 - p, sendo p o estimador de maxima verossimilhanga 
de p, por exemplo. O intervalo obtido fica 

p - z(y)V pq/n «£ p « p + z(y)V^7n, (11.41) 

com z(y) definido como em (11.40). 


Exemplo 11.16. Suponha que em n = 400 provas obtemos k = 80 sucessos. Vamos obter 
urn intervalo de confianga para p com y= 0,90. Como p = 80/400 = 0,2 e q = 1 - p = 0,8, 
entao (11.41) fica 

0,2 ± (1,645)V (0,2)(0,8)/400 = 0,2 ± 0,033, 


ou seja, 


IC(p; 0,90) = ]0,167; 0,233[. 
Usando (11.40) o intervalo conservador e 


IC(p; 0,90) = ]0,159; 0,241[. 
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Observe que o primeiro intervalo tem amplitude menor que o segundo. Outra observagao 
importante e que por (11.40) e um y fixo, os intervals que podemos obter para amostras 
diferentes (mas de mesmo tamanho n) terao a mesma amplitude, dada por 2z(y)/V4n. 

Por outro lado, usando (11.41), a amplitude do intervalo sera 2z(y) 1^_, que e variavel de 

amostra para amostra, pois p (e, consequentemente, q~) variara de amostra para amostra. 


iJTin 


emas 


14. Calcule o intervalo de confianga para a media de uma N(/v, a 2 ) em cada um dos 
casos abaixo. 


Media 

Amostral 

Tamanho 
da Amostra 

Desvio Padrao 
da Populagao 

Coeficiente de 
Confianga 

170 cm 

100 

15 cm 

95% 

165 cm 

184 

30 cm 

85% 

180 cm 

225 

30 cm 

70% 


15. De 50.000 valvulas fabricadas por uma companhia retira-se uma amostra de 400 valvu- 
las, e obtem-se a vida media de 800 horas e o desvio padrao de 100 horas. 

(a) Qual o intervalo de confianga de 99% para a vida media da populagao? 

(b) Com que contianga dir-se-ia que a vida media e 800 ± 0,98? 

(c) Que tamanho deve ter a amostra para que seja de 95% a confianga na estimativa 
800 ± 7,84? 

(Que suposigoes voce fez para responder as questoes acima?) 

16. Qual deve ser o tamanho de uma amostra cujo desvio padrao e 10 para que a diferenga 
da media amostral para a media da populagao, em valor absoluto, seja menor que 1, 
com coeficiente de confianga igual a: 

(a) 95% (b) 99% 

17. Uma populagao tem desvio padrao igual a 10. 

(a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em 
estimara media seja superior a uma unidade? 

(b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confianga, se 

x = 50? 

18. Uma amostra aleatoria de 625 donas de casa revela que 70% delas preferem a marca A 
de detergente. Construir um intervalo de confianga para p = proporgao das donas de 
casa que preferem A com c.c. y = 90%. 

1 9. Encontre os intervalos de confianga para p se k/n =0,3, com c.c. y = 0,95. Utilize os dois 
enfoques apontados na segao 11.6, com n =400. 

20. Antes de uma eleigao, um determinado partido esta interessado em estimar a proporgao p 
de eleitores favoraveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou 
que 60% dos eleitores eram favoraveis ao candidato em questao. 
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(a) Determine o tamanho da amostra necessario para que o erro cometido na estimagao 
seja de, no maximo, 0,01 com probabilidade de 80%. 

(b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos 
eleitores eram favoraveis ao candidato em questao, construa um intervalo de confianga 
para a proporgao p. Utilize 7=0,95. 

21. Suponha que estejamos interessados em estimar a proporgao de consumidores de um 
certo produto. Se a amostra de tamanho 300 forneceu 100 indivfduos que consomem o 
dado produto, determine: 

(a) o intervalo de confianga para p, com coeficiente de confianga de 95% (interprete o 
resultado); 

(b) o tamanho da amostra para que o erro da estimativa nao exceda a 0,02 unidades 
com probabilidade de 95% (interprete o resultado). 


11.7 Erro Padrao de um Estimador 


Vimos que, obtida a distribuigao amostral de um estimador, podfamos calcular a 
sua variancia. Se nao pudermos obter a distribuigao exata, usamos uma aproximagao, 
se essa estiver disponivel, como no caso de X, e a varianciajlo estimador sera a variancia 
dessa aproximagao. Por exemplo, para a media amostral X, obtida de uma amostra de 
tamanho n, temos que 

Var(X) =-£, 


na qual <r 2 e a variancia da v.a. X definida sobre a populagao. 

A raiz quadrada dessa variancia chamaremos de erro padrao deX e o denotaremos 
por 


EP(X) 


a 

Vn 


(11.42) 


Definigao Se T for um estimador do parametro 9, chamaremos de erro padrao de T a 
quantidade 

EP(T) = V Var(T). (11.43) 

A variancia de T dependera dos parametros da distribuigao de X, o mesmo aconte- 
cendo com o erro padrao. Por exemplo, em (11.42), EP(X) depende de o, que em geral 
e desconhecida. Podemos, entao, obter o erro padrao estimado deX, dado por 

ep(X) =EP(X) =S/Vn, (11.44) 

na qual S 2 e a variancia amostral. Genericamente, o erro padrao estimado de T e dado por 

EP(T) =V\/ar(T). (11.45) 

Muitas vezes a quantidade (11.45) e chamada de erro amostral. Mas preferimos 
chamar de erro amostral a diferenga e = T - 0. 
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Exemplo 11.17. Para o Exemplo 11.15, p~ = 0,6, e o erro padrao de p sera dado por 



(11.46) 


Como nao conhecemos p usamos no seu lugar o estimador p, obtendo-se 
fP(p) = V(0,6)(0,4)/400 = 0,025. 

Observe que o intervalo de confianga (11.41) pode ser escrito 

P + z(y)(EP(p)), 

ao passo que o intervalo para /u dado por (11.37) pode ser escrito 

X"± (1,96)(EP(X~)). 

11.8 Inferencia Bayesiana 

O estabelecimento de uma ponte entre os valores observados na amostra e os mo- 
delos postulados para a populagao, objeto da inferencia estatfstica, exige a adogao de 
principios teoricos muito bem especificados. Neste livro usaremos a chamada teoria 
frequentista (as vezes tambem chamada de classica). Seus fundamentos encontram-se 
em trabalhos de j. Neyman, E. Pearson, R. Fisher e outros. 

Consideremos urn exemplo para ilustrar esse enfoque. Suponha que tenhamos uma 

amostra observada (x 1 .x n ) de uma populagao normal, N(/u, o 2 ), e queremos fazer 

inferences sobre os valores de /u e ct 2 , baseados nas n observagoes. 

Por meio de algum procedimento estudado neste capitulo, selecionamos estimadores 
/2(x) e <j 2 (x) que sejam fungoes do vetor de observagoes x = (x 1( ..., x n )'. Considere dados 
hipoteticos x L , x 2 ,... l todos amostras de tamanho n, que poderiam ter sido gerados da 
populagao em questao. Obtemos, entao, as distribuigoes amostrais de /i(x) e <r 2 (x), como 
na segao 10.7. Podemos tambem obter intervalos de confianga para os parametros des- 
conhecidos n e a 2 , bem como testar hipoteses sobre esses parametros, assunto a ser 
discutido no Capitulo 12. 

Para construir intervalos de confianga e testar hi poteses sera necessario conhecer a 
distribuigao amostral dos estimadores. Como so temos urn conjunto de dados e nao 
dados hipoteticos, estas distribuigoes amostrais terao de ser obtidas de outra maneira, 
e nao como no Exemplo 10.7. Usualmente isso e feito usando teoremas como o Teorema 
Limite Central, discutido na segao 10.8, obtendo-se uma distribuigao aproximada para 
os estimadores, que vale para tamanhos de amostras grandes. 

A critica que se faz a teoria frequentista e a possibilidade de "replicar dados", bem 
como o recurso a teoria assintotica. Uma teoria que nao faz uso de tais argumentos e a 
inferencia bayesiana, cujos fundamentos foram estabelecidos por T. Bayes em 1763. 
Outros expoentes dessa correnteforam Bernoulli (1713), Laplace (1812) eJeffreys (1939). 
Aqui, o Teorema de Bayes, estudado no Capitulo 5, tern papel fundamental. A nogao de 
probabilidade prevalente aqui e a subjetiva, discutida brevemente no mesmo capitulo. 
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Com relagao ao nosso exemplo, a Inferencia Bayesiana admite que os parametros 
jj. e a 2 , que sao quantidades desconhecidas da distribuigao de X, podem ser descritos 
por uma distribuigao de probabilidades, p(^, a 2 ), chamada a distribuigao a priori des¬ 
ses parametros. Nessa distribuigao sao incorporadas todas as informagoes que temos 
sobre 9 = [/u, a 2 )', inclusive de natureza subjetiva. Essa di stri bui gao e hipotetizada 
antes de se colherem os dados. 

0 que e importante observar e que, tanto na teoria frequentista como na bayesiana, 
urn parametro qualquer, como /u, no exemplo acima, e considerado fixo. 0 que se faz 
no enfoque bayesiano e caracterizar a incerteza sobre esse parametro por meio de uma 
di stri bui gao de probabilidades. 

Apos obtidos os dados, obtemos a fungao de verossimilhanga, que incorpora a 
informagao sobre 9 fornecida pelos dados. Finalmente, obtemos a distri buigao a 
posteriori de 9, dada a amostra observada. Urn estimador de 9 pode ser tornado, por 
exemplo, como a media ou a moda dessa distribuigao a posteriori. 

Vimos no Capftulo 5 que o teorema de Bayes pode ser usado para atualizar proba¬ 
bilidades de urn evento. Mas o teorema tambem pode ser utilizado para obter informa¬ 
gao sobre urn parametro desconhecido de urn modelo probabilistico, como o binomial 
ou normal, por exemplo. Chamemos de 9 urn tal parametro, suposto desconhecido, e 
para o qual tenhamos alguma informagao anterior, consubstanciada numa distribuigao 
de probabilidades p(0), chamada distribuigao a priori de 9. Vamos supor, por ser mais 
simples, que 9 tenha os valores 9 V 9 V ..., 9 r , com probabilidades a priori P(0 = 9.) = 
p(0 i ), i = 1, 2,..., r. Chamemos de y a nova informagao sobre 9, que tambem e obtida 
de urn modelo discrete. Entao o teorema de Bayes pode ser escrito 


P(0Jy) 


P(0i)P (y 16>i) 

3 =1 p(q) p (yiq)' 


i = 1, 2, ..., r. 


(11.47) 


Aqui, as verossimilhangas sao Pfyl^),..., P(y|6>), e as probabilidades a posteriori 
determinadas pelo teorema de Bayes sao P(0Jy),..., P(0 r |y). Obtida essa distribuigao a 
posteriori de 9, dada a nova informagao y, podemos por exemplo estimar 9 como 
sendo a media dessa distribuigao ou a moda (o valor que maximiza P(0|y)). 


Exemplo 11.18. Vamos considerar uma aplicagao do Teorema de Bayes a urn exemplo 
simples de mercado de agoes. Chamemos de y o rendimento do IBOVESPA (Indice da 
Bolsa de Valores de Sao Paulo), em porcentagem, por perfodo (mes, por exemplo). 
Suponha que estejamos interessados somente se o rendimento for positivo (y > 0) ou 
negativo (y < 0). Designando por 9 o "estado do mercado", vamos considerar apenas 
dois estados, mercado em alta (0 : ) ou mercado em baixa (0 2 ). Suponha que se tenha a 
seguinte informagao previa (ou a priori) sobre as probabilidades de 9 2 e 9 2 : 


priori 

0, 

0 2 

P(0) 

3/5 

2/5 
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Entao, as probabilidades a priori dos estados sao p(0 1 ) = P(0 = 0 2 ) = 3/5 e p(0 2 ) = 
P(0 = 0 2 ) = 2/5. As verossimilhangas sao dadas aqui por 

P (y > O|0) e P (y < O|0), 

para 0 = 6 V 0 2 , que denotaremos genericamente por p(yl0). Essas verossimilhangas 
sao supostas conhecidas no Teorema de Bayes e vamos supor que em nosso caso sao 
dadas na tabela abaixo. 



P(ylfl) 

y 


o 2 

y > 0 

2/3 

1/3 

‘C 

A 

CD 

1/3 

2/3 


Ou seja, temos que 


P (y > 010,) = 2/3, P(y >O|0 2 ) =1/3, 

P (y < 010,) = 1/3, P(y <O|0 2 ) =2/3. 
Podemos calcular as probabilidades conjuntas p(y,0), ou seja, 


p(y, 0) = p(0)p(yl0), 


obtendo-se a tabela abaixo. 


e 

P (y, 0) 


y 


0 2 

p(y) 

y >0 

6/15 

2/15 

8/15 

y <0 

3/15 

4/15 

7/15 

P(fl) 

9/15 

6/15 

1 


Por exemplo, 

P (y > 0, 0 = 0 2 ) = P (0 = 0 2 ) • P (y > O|0 = 0 2 ) = 3/5 x 2/3 = 6/15. 

O Teorema de Bayes, dado pela formula (11.47), fornece as probabilidades a 
posteriori de d l e 0 2 , dado o valor observado de y: 

Pieiy) = P (9 y>. < n ' 48 > 

Para calcular (11.48) precisamos calcular p(y), que sao chamadas probabilidades 
marginals preditoras ou simplesmente previsoes. Usando o mesmo argumento que 
deu origem a (5.14), podemos escrever 

P(y) =1 p(y, 0) =1 p(0)p(yl0). 

Em nosso caso, 

P(y >0) =P(0 1 )P(y > 010,) +P(0 2 )P(y >O|0 2 ) 

= 3/5 x 2/3 + 2/5 x 1/3 = 8/15. 
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Do mesmo modo, 

P (y < 0) = P (0j)P (y <01^) + P (0 2 )P (y <O|0 2 ) =7/15, 
e teremos a tabela a seguir: 


y 

p(y) 

y >0 

8/15 

y <0 

7/15 


Vemos que essa e a mesma distribuigao marginal de y, dada na tabela que mostra a 
distribuigao conjunta de y e 0. 

Entao, por (11.48), 


P(e-eh'-O)- p ( 0 i) p (y > °l 0 i) _ 3/5 x 2/3 _ 3/ , 
P(0 - 0 i ly>O) -RT^O)-8715 _3/4 ’ 


P(0 = aly >0) = 


P(0 2 )P(y >O|0 2 ; 
p (y > 0) 


= 1/4. 


De modo analogo, obtemos 


P (0 = 0Jy < 0) = 3/7, P (0 = 0 2 |y < 0) = 4/7. 

Temos, entao, as probabilidades condicionais de alta e baixa, dada a informagao 
de que o retorno e positivo ou negativo: 


e 

p(0 

y) 



0 2 

o 

A 

3/4 

1/4 

A 

CD 

3/7 

4/7 


Podemos, por exemplo, "estimar" 0 (alta ou baixa) por d x (mercado em alta) se y > 
0, ja que P(0 = 0Jy > 0) = 3/4 e "estimar" 0 por 0 2 (mercado em baixa) se y < 0, pois 
P(0 = 0 2 |y < 0) = 4/7. Ou seja, tomamos o valor maximo da probabilidade a posteriori, 
dada a informagao sobre o rendimento. 

Esse e urn exemplo do que se chama de modelo estatico. Poderfamos considerar 
urn modelo dinamico, supondo-se que esse muda de perfodo para perfodo (de dia para 
dia ou de mes para mes etc.). 


11.9. Exemplos Computacionais 

Simulando Erros Padroes 

Na segao 11.7 definimos o que seja o erro padrao de urn estimador T de urn parametro 0, 
baseado numa A AS de uma populagao rotulada pela v.a. X. Vimos, em particular, que o erro 
padrao da media amostral X e dado por (11.42) e esse pode ser estimado por (11.44), ou seja, 

S 
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0 erro padrao de um estimador e fundamental para avaliarmos quao bom ele e. 
Simplesmente calcular T, ou saber que ele e nao-viesado, nao e suficiente: e necessario 
calcular sua variabilidade. 

Mas, na maioria das situagoes, nao podemos obter uma estimativa do erro padrao 
de um estimador. Considere, por exemplo, a mediana de uma amostra, 


md = med(X 1( ..., X n ). 


(11.49) 


Pode nao ser facil calcular a Var(md) e, consequentemente, o erro padrao de md. 
Se admitirmos que a aproximagao (11.18) e razoavel, entao teremos 



e poderemos, novamente, estimar a por S e obter 



Mas, se tivermos amostras nao muito grandes, a aproximagao pode nao ser adequada. 

Felizmente, com o progresso de metodos computacionais usando intensivamente 
computadores cada vez mais rapidos e com capacidade cada vez maior de lidar com 
conjuntos grandes de dados, o calculo de erros padroes, vieses etc., pode ser feito sem 
recorrer a uma teoria, que muitas vezes pode ser muito complicada ou simplesmente 
nao existir. 

Um desses metodos e chamado bootstrap, introduzido por B. Efrom, em 1979. Os 
livros de Efrom e Tibshirani (1993) e Davison e Hinkley (1997) sao references impor- 
tantes para aqueles que quiserem se aprofundar no assunto. 

A ideia basica do metodo bootstrap e re-amostrar o conjunto disponfvel de dados para 
estimar o parametro d, com o fim de criar dados replicados. A partir dessas replicagoes, 
podemos avaliar a variabilidade de um estimador proposto para 0, sem recorrer a cal- 
culos analfticos. 

Vamos ilustrar o metodo com um exemplo. 

Exemplo 11.19. Suponha que temos os dados amostrais x = (x v x 2 , ..., x n ) e queremos 
estimar a mediana populacional, M d, por meio da mediana amostral md(x) = med(x 1( ..., x n ). 

Vamos escolher uma AAS (portanto, com reposigao) de tamanho n dos dados. Tal 
amostra e chamada uma amostra bootstrap e denotada por x* = (x* ..., x*). 

Por exemplo, suponha que x = (x v x 2 , x 3 , x 4 , x 5 ). Poderemos obter, por exemplo, 
X* = (x 4 , x 3 , x 3 , x 3 , x 2 ). 

Suponha, agora, que geremos B tais amostras independentes, denotadas x^, ..., xjj. 
Para cada amostra bootstrap, geramos uma replica bootstrap do estimador proposto, 
ou seja, de md(x), obtendo-se 


md(xj), md(3^ 2 ).md(x^ B ). 


(11.50) 
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Definimos o estimador bootstrap do erro padrao de md(x) como 


EP B (md) 


X B b=1 (md(3p - md) 2 
B - 1 


1/2 


com 


md 


XLmd(x*) 

B 


(11.51) 

(11.52) 


Ou seja, o estimador bootstrap do erro padrao da mediana amostral e o desvio padrao 
amostral do conjunto (11.50). Na Figura 11.5 temos representado o esquema do metodo. 

Vamos ilustrar o metodo com urn exemplo numerico simples. Suponha que n = 5 e 
a amostra e x = (2, 5, 3, 4, 6). Vamos considerar B = 5 amostras bootstrap de x Como 
gerar tais amostras? Primeiramente, geramos cinco numeros aleatorios i 1( ..., i 5 dentre 
os cinco numeros inteiros 1, 2, 3, 4, 5 e consideramos a amostra bootstrap x* = (x il( ..., 
x i5 ). Repetimos esse procedimento cinco vezes. Podemos usar a Tabela VII para gerar 
esses NA, como ja aprendemos. Considere, por exemplo, as cinco primeiras linhas e, 
comegando do canto esquerdo, prossiga em cada linha ate obter cinco dfgitos entre 1 
e 5, inclusive; note que pode haver repetigoes! Obtemos a Tabela 11.2. 


Figura 11.5: Procedimento bootstrap para calcular o erro padrao da mediana amostral. 



Tabela 11.2: Procedimento bootstrap. 


NA 

Amostra 

bootstrap 

md(X) 

x(X) 

1,2,2,5,1 

(2,5,5,6,2) 

5,0 

4,0 

4,4,4,3,2 

(4,4,4,3,5) 

4,0 

4,0 

5,4,5,5,5 

(6,4,6,6,6) 

6,0 

5,6 

5,1,1,5,5 

(6,2,2,6,6) 

6,0 

4,4 

2,5,4,5,3 

(5,6,4,6,31 

5,0 

4,8 


Por exemplo, obtidos os NA 1, 2, 2, 5, 1, teremos a amostra bootstrap (x 2 , x 2 , x 2 , x 5 , x 2 ) 
= (2, 5, 5, 6, 2), para a qual a mediana amostral e 5. Segue-se que md = 26/5 = 5,2 e 


EP B (md) 


Y 5 b Jmd(x*) - 5,2) 2 


4 


= 0,837. 
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Se usarmos a aproximagao (11.18), calculamos a variancia da amostra original, 
obtendo-se S 2 = 2,5, donde fP(md) « 0,886. Levando-se em conta o tamanho da amos¬ 
tra, a discrepancy entre os dois valores nao e grande. 


Exemplo 11.20. Na Tabela 11.2 calculamos, tambem, para cada amostra bootstrap, a 
media amostral, x. Obtemos, usando (11.51), 

tf> B (x) = 0,669, 

e usando a formula (11.44), 

EP(x) = V 2,5/5 = 0,707, 

logo o valor obtido pelo metodo bootstrap esta bastante proximo do valor calculado 
pela formula obtida de maneira analitica. Obviamente, em situagoes nas quais ha uma 
formula disponfvel, nao ha necessidade de se usar bootstrap. 

A questao que se apresenta e: qual deve ser o valor de B, ou seja, quantas amostras 
bootstrap devemos gerar para estimar erros padroes de estimadores? A experience 
indica que urn valor razoavel e B = 200. 

No caso geral de urn estimador O = T(x), o algoritmo bootstrap para estimar o erro 
padrao de 6 e o seguinte: 

[1] Selecione B amostras bootstrap independentes rtf, ..., x*, cada uma consistin- 
do de n valores selecionados com reposigao de x. Tome B ~ 200. 

[2] Para cada amostra bootstrap x* calcule a replica bootstrap 

0*(b)=T(rtf), b = 1, 2.B. 

[3] O erro padrao de Q e estimado pelo desvio padrao das B replicas: 



B - 1 


£(0*(b) - 9*) 2 


b =1 


1/2 


(11.53) 


com 

6 * = — B = i (11.54) 

B 

No exemplo acima, notamos que urn intervalo de confianga aproximado para a 
mediana populacional Md, com coeficiente de confianga 95%, seria 

5,2 ± (1,96)(0,837) = ]3,56; 6,84[. 

No exemplo dado, para efeito de iIustragao do metodo bootstrap, tomamos uma 
amostra pequena (n = 5) e poucas amostras bootstrap (B = 5). Para amostras maiores e 
B na ordem de 200 deveremos fazer urn pequeno programa, em alguma linguagem 
(como o Visual Basic, Pascal, Fortram, C etc.), que gere as amostras bootstrap, e cal- 
cular o estimador dado por (11.53). Isso implica, em particular, gerar, para cada amos¬ 
tra bootstrap, n numeros aleatorios. Como ja vimos, nao e pratico usar uma tabela de 
NA nessa situagao; devemos usar alguma rotina de computador. 
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11.10 Problemas e Complementos 

22. Um pesquisador esta em duvida sobre duas possfveis estatfsticas, t e t' , para serem usa- 
das como estimadores de um pardmetro 0. Assim, ele decidiu usar simulagao para uma 
situagao hipotetica, procurando encontrar pistas que o ajudassem a decidir qual o melhor 
estimador. Partindo de uma populagaofictfcia, onde 0 = 10, ele retirou 1.000 amostras de 
20 elementos, e para cada amostra calculou o valor das estatfsticas t e t' . Em seguida, 
construiu a distribuigao de frequencies, segundo o quadro abaixo. 


Classes 

% det 

% det' 

51-7 

10 

5 

71— 9 

20 

30 

91-11 

40 

35 

11 1—13 

20 

25 

131—15 

10 

5 


(a) Verifique as propriedades de t e t' como estimadores de 0. 

(b) Qual dos dois voce adotaria? Por que? 

23. De experiences passadas, sabe-se que o desvio padrao da altura de criangas de 
5 a serie do l a grau e 5 cm. 

(a) Colhendo uma amostra de 36 dessas criangas, observou-se a media de 150 cm. 
Qual o intervalo de confianga de 95% para a media populacional? 

(b) Que tamanho deve ter uma amostra para que o intervalo 150 ± 0,98 tenha 95% 
de confianga? 

24. Um pesquisador esta estudando a resistencia de um determinado material sob determina- 
das condigoes. Ele sabe que essa variavel e normalmente distribufda com desvio padrao 
de duas unidades. 

(a) Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de 
uma amostra de tamanho 9, determine o intervalo de confianga para a resistencia 
media com um coeficiente de confianga 7=0,90. 

(b) Qual o tamanho da amostra necessario para que o erro cometido, ao estimarmos a 
resistencia media, nao seja superior a 0,01 unidade com probabilidade 0,90? 

(c) Suponha que no item (a) nao fosse conhecido o desvio padrao. Como voce procede- 
ria para determinar o intervalo de confianga, e que suposigoes voce faria para isso? 
Veja tambem o Problema 44. 

25. Estime o salario medio dos empregados de uma industria textil, sabendo-se que uma 
amostra de 100 individuos apresentou os seguintes resultados: 


Salario 

Frequencia 

150,001-250,00 

8 

250,001-350,00 

22 

350,001-450,00 

38 

450,001-550,00 

28 

550,001-650,00 

2 

650,001-750,00 

2 


Use 7 = 0,95. 
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26. Suponha que as vendas de um produto satisfagam ao modelo 

V t = ot +/3t + a t , 

onde a t e a variavel aleatoria satisfazendo as suposigoes da segao 11.4, e o tempo e dado 
em meses. Suponha que os valores das vendas nos 10 primeiros meses do ano 1 sejam 
dados pelos valores da tabela abaixo. Obtenha as previsoes para os meses de novembro 
e dezembro do ano 1 e para julho e agosto do ano 2 . 


t 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

y. 

5,0 

6,7 

6,0 

8,7 

6,2 

8,6 

11,0 

11,9 

10,6 

10,8 


27. Numa pesquisa de mercado para estudar a preferencia da populagao de uma cidade em 
relagao a um determinado produto, colheu-se uma amostra aleatoria de 300 indivfduos, 
dos quais 180 preferiam esse produto. 

(a) Determine um intervalo de confianga para a proporgao da populagao que prefere o 
produto em estudo; tome 7=0,90. 

(b) Determine a probabilidade de que a estimativa pontual dessa proporgao nao difira do 
verdadeiro valor em mais de 0 , 001 . 

(c) E possfvel obter uma estimativa pontual dessa proporgao que nao difira do valor 
verdadeiro em mais de 0,0005 com probabilidade 0,95? Caso contrario, determine o 
que deve serfeito. 

28. Uma amostra de 10.000 itens de um lote de produgao foi inspecionada, e o numero de 
defeitos por item foi registrado na tabela abaixo. 


N 2 de defeitos 

0 

1 

2 

3 

4 

Quantidade de pecas 

6.000 

3.200 

600 

150 

50 


(a) Determine os limites de confianga para a proporgao de itens defeituosos na popula¬ 
gao, com coeficiente de confianga de 98%. Use (11.40). 

(b) Mesmo problema, usando (11.41). 

29. Antes de uma eleigao em que existiam dois candidatos, A e B, foi feita uma pesquisa com 
400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar no 
candidatoA. Construa um intervalo de confianga, com c.c. 7 = 0 , 95 , para a porcentagem 
de eleitores favoraveis ao candidato A na epoca das eleigoes. 

30. Encontre o c.c. de um intervalo de confianga para p, se n = 100, p =0,6 e a amplitude do 
intervalo deve ser igual a 0,090. 

31. Usando os resultados do Problema 32 do Capitulo 10, mostre que o intervalo de confianga 
para a diferenga das medias populacionais, com variancias conhecidas, e dado por 

1C (/ij- n 2 : 7 ) =(X - Y )±z(y)^la 2 1 /n 1 +a 2 2 /r\ 2 . 

32. Estao sendo estudados dois processos para conservar alimentos, cuja principal variavel de 
interesse e o tempo de duragao destes. No processo A, o tempo X de duragao segue a 
distribuigao N(/i A , 100), e no processo B o tempo Y obedece a distribuigao N(,u B , 100). 
Sorteiam-se duas amostras independentes: a de A, com 16 latas, apresentou tempo medio 
de duragao igual a 50, e a de B, com 25 latas, duragao media igual a 60. 
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(a) Construa um 1C para jU A e fi B , separadamente. 

(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se cons- 
truir um 1C para a diferenqa fi A - fi B . Caso o zero pertenqa ao intervalo, pode-se 
concluir que existe evidencia de igualdade dos processos. Qual seria sua resposta? 

33. Seja X uma v.a. com E (X ) = e V a r (X ) -a 2 finita. Entao, para todo k > 0, a seguinte 
desigualdade (chamada desigualdade de Chebyshev) e valida: 

P(|X-/x| &k)«Var(X)/k 2 . (11.55) 


Usando (11.55), prove que X e um estimador consistente para a media fi de uma popu- 
laqao com variancia a 2 . 


34. Lei dos Grandes Numeros. Consideremos n provas de Bernoulli com p =P (sucesso), e 
seja k o numero de sucessos nas n provas. A Lei dos Grandes Numeros (LGN ) afirma que, 
para n grande, a proporqao de sucessos k/n estara proximo de p = P (sucesso). Formal- 
mente, para todo £ > 0, 


k 

' 

n-P 

5= £ 


Pd-P) 

n£ 2 


(11.56) 


Prove (11.56), usando (11.55). 


35. A LGN pode ser usada de maneira util na seguinte situaqao. Suponha que queiramos 
saber quantas repetiqoes de um experimento de Bernoulli devemos realizar a fim de que k/ 
n difira de p de menos de £, com probabilidade maior ou igual a y. Ou seja, queremos 
determinar n, tal que 


P 


k 

- - P 
n 


< £ 


De (11.56) temos 



< £ 


Pd-P) 

n£ 2 


logo, comparando, temos que n deve satisfazer 

1 - P^ 1 ~ P) =y=> n = P (1 ~ P } , onde <S> = 1 - y. 
n£ 2 <5£ 2 

Como nao conhecemos p, usando o fato de que p(l - p) =£ 1/4; logo, basta tomar n tal 
que n = l/4<5£ 2 . 

Usando esse resultado, resolva este problema: suponha que a proporqao de fumantes de 
uma populaqao e p, desconhecida. Queremos determinar p com um erro de, no maximo, 
0,05. Qual deve ser o tamanho da amostra n, a ser escolhida com reposiqao, se y = 0,95? 


36. Se a distribuiqao de X depende de mais de um parametro, digamos e 0 2 , entao 
L(0 X , 0 2 ; X ir ..., X n ), e para maximizar L basta derivar L em relaqao a 9 X e 0 2 (em 
algumas situaqoes, derivar L nao conduz ao EM V ; veja o Problema 43). Considere, entao, 
X ~ N (/u, a 2 ). Determine os EMV de n e <7 2 , considerando d£/d/u - 0 e 
d£/da 2 = 0, onde £ = log L. 
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37. Estimagao numa distribuigao uniforme. Suponha que X tenha uma distribuigao uniforme 
no intervalo (0, d), onde 6e desconhecido. Uma amostra de n observagoes X i; ..., X n e 
escolhida. Sabemos que E (X ) =E (X ^ -6/2, para todo i, e Var(X ) = Var(X = 9 2 / 12, para 
todo i. Logo, se calcularmos a media amostral X, essa deve estar proximo de 6/2 e pode- 
mos estimar 6 por T x = 2X . 

(a) Calcule E(T 1 ). 

(b) Calcule EQM (TJ =E(T r 6) 2 . 

(c) Tj e consistente? Por que? 

38. Continuagao do Problema 37,Outra maneira de estimar 6>na uniforme e a seguinte. Con- 
sidere M = max(X 1 ,..., X n ) =x (n) , ou seja, o maior valor da amostra. Para qualquer valor de 
6, M <0eM seaproxima de 0quando n aumenta. Tome M como estimador de 6, o que 
e bastante razoavel. Na realidade, veremos, no Problema 42, que M = 0 MV . 

Vimos no Problema 39 do Capitulo 10, que a densidade de M e dada por 


v>o= 


^X" 

e n 

o, 


se 0 x 6 
caso contrario. 


(11.57) 


(a) Mostre que E (M ) = 6 , logo M e viesado. Calcule o vies V M (0) de M e mostre 

que esse vies tende a zero, quando n 


(b) Considere o estimador T = 


n +1 


M ; segue-se que T, e nao-viesado para 6, ou 


seja, E (T 2 ) = 6. Calcule o erro quadratico medio de T 2 , EQM (T 2 ) = E (T 2 - 9) 2 . 
(c) T 2 e consistente? Por que? 


39. Para os Problemas 37 e 38, mostre que Var(T 2 ) =[3/(n +2)] VarfTj). Tome n = 1, 2, 10, 50, 
100 e verifique qual a relagao entre as duas variancias. Verifique que, para n grande, T 2 
= [(n +l)/n]M eumestimadormuito melhordoqueTj =2X. ComoT, =(1 + 1/n)M , vemos 
que, para n grande, T 2 = M . Portanto, para tamanhos de amostras grandes, o EM V e 
melhor do que 2X. 


40. Considere as situagoes dos Problemas 37, 38 e 39. Suponha que n seja suficientemente 
grande para que o TLC se aplique e se possa aproximar a distribuigao de X e de M por uma 
distribuigao normal. 

(a) Calcule a media e varianga de Tj, M eT 2 . 

(b) Obtenha urn I.C. (6; 0,90) usando T r 

(c) Idem usando M . 

(d) Idem usando T 2 . 

[Sugestao: substitua na varianga de cada estimador, obtida em (a), o parametro 6, desco¬ 
nhecido, pelo seu estimador, para obtera respectiva varianga esitmada] 


41. Foram gerados 1.000 valores de uma distribuigao uniforme no intervalo (0, 5), ou seja, 
6 = 5. As seguintes estatfsticas foram obtidas: 
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x U) = min(X 1 .X 1000 ) =0,01132, x (1000) = M =max(X 1 .X 1000 ) -4,992; 

q x = 1,315, q 2 = 2,572, q 3 = 3,829, x= 2,547. 


Calcule Tj, T 2 e aplique o resultado do Problema 40 para obter um intervalo de confianga 
para 0, com C.C. =90%. 

42. EM V na uniforme. Como 

f(x) _[ 1/9, seO^x«0, 

[0, caso contrario, 


a densidade conjunta da amostra e 


. x n ; = {o, /0n ' 


seO « x j 0, i =1,..., n 
caso contrario. 


Segue-se que A9\x 1 . x n ) = - n log 9 e derivando e igualando a zero obteremos 

-n 19 - 0, ou seja, o EM V de 9 seria °°! Evidentemente, essa nao e a resposta. Na 
realidade, nao podemos simplesmente derivar a verossimilhanga (ou o logaritmo dela) 
para obter o maximo, pois temos as restrigoes 0 x ; 9, para todo i. Fagamos o 
seguinte. Considere o grafico da densidade conjunta, ou da verossimilhanga, como fun- 
gao de 9. Como devemos ter 0 =£ x ; ss 9, para todo i, o maximo M dos x ; deve ser tal que 
0 =£ M =s 9, ou seja, obtemos o grafico abaixo. 



Ou seja, L(0| x r ...,X n ) = 0, para 0^ M ; logo, o maximo da verossimilhanga e obtido para 
0 = M e portanto 0 MV = M . 

Esse exemplo mostra que nem sempre obteremos o EM V derivando-se a verossimilhanga 
e igualando-a a zero. 


43. Suponha que X ~ N [n, a 2 ), n e a 2 desconhecidos. Uma amostra de tamanho n = 600 

X -y 


forneceu X = 10,3 e S 2 = 1,96. Supondo que a v.a. Z = 


S/Vn 


seja aproximadamente 


normal, obtenha um 1C para /J ., com C.C. 7 = 0,95 (se n for pequeno, Z nao e aproxima¬ 
damente normal; ver Capitulo 12). 
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44. Para estimara media jd desconhecida de uma populagao, foram propostos dois estima- 
dores nao-viesados independentes, e de tal sorte que Varf/ij) =Var(/i 2 )/3. Considere 
os seguintes estimadores ponderados de fU: 

(a) Tj = (fi 1 + fi 2 )l2; 

(b) T 2 =(4ju 1 +fi 2 )/5; 

(c) T 3 =fi r 

(i) Quais estimadores sao nao-viesados? 

(ii) Dispor esses estimadores em ordem crescente de eficiencia. 

45. Obtenha o estimador de A na Poisson, pelo metodo dos momentos. 

46. Considere o CD-Notas e retire uma amostra com reposigao de tamanho n = 10. Determine 
o erro padrao estimado pelo metodo bootstrap das estatisticas (use B = 15, porexemplo): 

(a) md = mediana da amostra; 

(b) dm = desvio medio da amostra. 

(c) dam = desvio absoluto mediano. 

47. Prove (11.1 5). 

48. Calcule o EQM (erro quadratico medio), dado por (1 1.20), para os estimadores S 2 e G 2 , 
no caso de popula(;ao normal. Compare esses dois EQM . Qual estimador voce escolhe- 
ria, se o criterio de escolha e ter o menor EQM ? 

49. Considere a v.a. discreta X com fun^ao de probabilidade dada por: 

pM = P(X = x) = 4- x = 1, 2, 0 

U 

onde 9 > 0 e um numero inteiro desconhecido. Uma AAS X., .... X de tamanho l"le 
selecionada e considera-se oseguinte estimador de 9: 

T = 2X - 1, onde X = 4ix.. 

n hi 1 

(a) Mostre que T e um estimador nao-viesado de 9 e obtenha sua variancia. T e um 
estimador consistente de 0? Por que? 

(b) Se n = 6 e a amostra observada for X 1 =>^=X 3 =>^=>^ = le>^=2,qualea estimativa 
de 9? Esta estimativa e um valor plausivel para 0? Sugira outro estimador para 9 que 
somente conduza a valores plausfveis de 9. 

[Observa^ao: Z^ =1 i = k(k+l)/2, i 2 = k(k+ l)(2k+ l)/6, k 5= 1, kinteiro.] 



Capitulo 1 2 


Testes de Hipoteses 


12.1 Introducao 

Vimos no Capitulo 10 que um dos problemas a serem resolvidos pela Inferencia 
Estatfstica e o de testar uma hipotese. Isto e, feita determinada afirmagao sobre uma 
populagao, usualmente sobre um parametro dessa, desejamos saber se os resultados 
experimentais provenientes de uma amostra contrariam ou nao tal afirmagao. Muitas 
vezes, essa afirmagao sobre a populagao e derivada de teorias desenvolvidas no cam- 
po substantivo do conhecimento. A adequagao ou nao dessa teoria ao universo real 
pode ser verificada ou refutada pela amostra. 0 objetivo do teste estatistico de hipote- 
ses e, entao, fornecer uma metodologia que nos permita verificar se os dados amostrais 
trazem evidences que apoiem ou nao uma hipotese (estatfstica) formulada. 

Neste capitulo iremos introduzir o procedimento basico de teste de hipotese sobre um 
parametro de uma populagao. A ideia central desse procedimento e a de supor verdadeira a 
hipotese em questao e verificar se a amostra observada e "verossfmil" nessas condigoes. No 
capitulo seguinte daremos alguns testes para comparagao de parametros de duas populagoes. 

12.2 Um Exemplo 

Vamos introduzir a ideia de teste de uma hipotese por meio de um exemplo hipo- 
tetico que, partindo de uma situagao simples, sera gradualmente ampliado para aten- 
der a situagao geral do teste de hipoteses. 

Exemplo 12.1. Uma industria usa, como um dos componentes das maquinas que pro- 
duz, um parafuso importado, que deve satisfazer a algumas exigences. Uma dessas e 
a resistencia a tragao. Esses parafusos sao fabricados por alguns pafses, e as especificagoes 
tecnicas variam de pais para pafs. Por exemplo, o catalogo do pais A afirma que a 
resistencia media a tragao de seus parafusos e de 145 kg, com desvio padrao de 12 kg. 
Ja para o pafs B, a media e de 155 kg e desvio padrao 20 kg. 

Um lote desses parafusos, de origem desconhecida, sera leiloado a um prego muito 
convidativo. Para que a industria saiba se faz ou nao uma oferta, ela necessita saber qual 
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pafs produziu tais parafusos. 0 edital do leiloeiro afirma que, pouco antes do leilao, sera 
divulgada a resistencia media X de uma amostra de 25 parafusos do lote. Qual regra de 
decisao deve ser usada pela industria para dizer se os parafusos sao do pafs A ou B? 

Uma resposta que ocorre imediatamente e a que considera como pafs produtor 
aquele para o qual a media da amostra mais se aproximar da media da populagao. 
Assim, uma possfvel regra de decisao seria: 

Sex =£ 150 (o ponto medio entre 145 e 155), diremos que os parafusos sao do pafs 
A; caso contrario, isto e, X > 150, sao do pafs B. 

Na Figura 12.1 ilustramos essa regra de decisao. 


Figura 12.1 Regra de decisao para o Exemplo 12.1. 


A -_ 



^ B 






145 

150 

155 

X 


Suponha que, no dia do leilao, fossemos informados de que X = 148; de acordo 
com nossa regra de decisao, dirfamos que os parafusos sao de origem A. Podemos 
estar enganados nessa conclusao? Ou, em outras palavras, e possfvel que uma amostra 
de 25 parafusos de origem B apresente media X = 148? Sim, e possfvel. Entao, para 
melhor entendermos a regra de decisao adotada, e interessante estudarmos os tipos de 
erros que podemos cometer e as respectivas probabilidades. 

Podemos cometer dois tipos de erros, e vamos numera-los para facilitar a linguagem: 

Erro de tipo I: dizer que os parafusos sao de A quando na realidade sao de B. Isso ocorre 
quando uma amostra de 25 parafusos de B apresenta media X inferior ou igual a 150 kg. 

Erro de tipo II: dizer que os parafusos sao de B, quando na realidade eles sao de A. Isso 
ocorre quando uma amostra de 25 parafusos de A apresenta media X superior a 150 kg. 

Para facilitar ainda mais, vamos definir duas hipoteses tambem numeradas: 

H 0 : os parafusos sao de origem B. Isso equivale a dizer que a resistencia X de cada 
parafuso segue uma distribuigao com media n = 155 e desvio padrao o = 20. 

H os parafusos sao de A, isto e, a media /u = 145 e o desvio padrao o = 12. 

Finalmente, vamos indicar por RC a regiao correspondente aos valores menores 
que 150, ou seja, 

RC = {y G IR |y « 150}. 

Com as notagoes indicadas acima, a probabilidade de se cometer cada urn dos 
erros pode ser escrita: 

P (erro I) = P (X E RC IH 0 e verdadeira) = a 
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P (erro II) = P (X £ RC IH 1 e verdadeira) = /?. 

Quando H 0 for verdadeira, isto e, os parafusos forem de B, sabemos do TLC que X tera 
distribuigao aproximadamente normal, com media 155 e desvio padrao igual a 20/V25 = 4, 
isto e, 

X ~ N (155,16). 

Denotando por Z a v.a. com distribuigao N (0,1), temos 

P (erro I) = P (X e RC IH 0 e verdadeira) 

= P (X~ss 1501X” ~ N (155,16)) 


\ 4 

= P (Z - 1,25) = 0,10565 = 10,56% = a. 

De modo analogo, quando H 1 for a alternativa verdadeira, teremos que a v.a. X e 
tal que, aproximadamente, 

X ~ N (145; 5,76). 

Teremos, entao, 

P (erro II) = P (X £ RC |H 1 e verdadeira) 

= P(X> 1501X" ~ N (145; 5,76)) 

= P (z > 150 2 4 145 j = P (Z > 2,08) = 0,01876 = 1,88% = j8. 

Observando esses dois resultados, notamos que, com a regra de decisao adotada, 
estaremos cometendo o erro de tipo I com maior probabilidade do que o erro de tipo II. De 
certo modo, essa regra de decisao privilegia a afirmagao de que os parafusos sao deA. No 
Quadro 12.1 ilustramos as consequencias que podem advir da regra de decisao adotada. 


Quadro 12.1: Resumo do teste H 0 : ^ =155, /u =145, com RC =]-°°, 150], 


Origem Real 

dos 

Parafusos 

Decisao 

RC 

1 lliO 1 

A 

L-B 

A 

Sem erro 

Erro tipo II 
|3 = 1,88% 

B 

Erro tipo I 
a = 10,56% 

Sem erro 


Desse quadro, podemos notar que, se os parafusos forem realmente de B (segunda 
linha) e a amostra tiver media superior a 150 (segunda coluna), diremos que sao de B, 
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e nao cometeremos erro algum. Por outro lado, se a media x for inferior a 150 (primei- 
ra coluna), devemos dizer que sao deA, e estaremos cometendo um erro cuja probabi- 
lidade nesse caso e de 10,56%. De modo analogo, teremos uma interpretagao para o 
caso de os parafusos serem realmente de A (primeira linha). 

Para cada regra de decisao adotada, isto e, se escolhermos um valor x c em vez de 150 no 
Quadra 12.1, apenas as probabilidades a e p mudarao. Sex. for escolhido menor que 150, 
notamos que a diminuira e p aumentara. Logo, deve existir um ponto em que a seja igual a 
p, ou seja, uma regra de decisao em que a probabilidade de errar contra A seja a mesma que 
errar contra B. M ostre que esse ponto eX c = 148,75, e nesse caso a = p = 5,94%. 

Do exposto acima constatamos que, escolhido um valor deX c , podemos achar as 
probabilidades a e p de cometer cada tipo de erro. M as tambem podemos proceder de 
modo inverso: fixar um dos erros, digamos a, e encontrar a regra de decisao que ira 
corresponder a probabilidade de erro de tipo I igual a a. 

Por exemplo, fixemos a em 5%, e vejamos qual a regra de decisao correspondente. 
Temos 

5% = P (erro I) = p (X X C |X ~ N (155,16)) 

= P(Z -1,645), 

mas da transformagao para a normal padrao sabemos que 



ou seja, X" c = 148,42. Entao, a regra de decisao sera: 

SeX" for inferior a 148,42, dizemos que o lote e de A; caso contrario, dizemos que e de B. 
Com essa regra, a probabilidade do erro de tipo II sera 

p = P (erro II) = P (X > 148,42|X ~ (145; 5,76)) 

= P (Z > 1,425) = 7,93%. 

Veja a iIustragao na Figura 12.2. 


Figura 12.2: llustra?ao dos erros de tipo I e II para o Exemplo 12.1. 
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Esse segundo tipo de procedimento e bastante utilizado, porque usualmente a de¬ 
cisao que devemos tomar nao e apenas entre duas possfveis populagoes. Os parafusos 
poderiam ser produzidos por outros pafses alem daqueles citados e, portanto, com 
outras caracterfsticas quanto a resistencia media. Suponha, ainda, que interessa a in¬ 
dustry fazer uma proposta apenas no caso de o parafuso ser de origem B. Qual a regra 
de decisao que deve adotar? 

A hipotese que nos interessa agora e: 

H 0 : os parafusos sao de origem B (/u = 155 e o = 20). 

Caso essa nao seja a hi potese verdadeira, a alternativa e muito mais ampla e pode 
ser expressa como: 

H x : os parafusos nao sao de origem B [jj. e o desconhecidos). 

Aqui nao podemos especificar os parametros sob a hipotese alternativa H 1( pois se nao 
forem de origem B, os parafusos podem ser de varios outros pafses, cada urn com suas 
proprias especificagoes. Alguns pafses podem ter tecnicas mais sofisticadas de produgao e, 
portanto, produzir com resistencia media superior a 155. Outros, como no exemplo dado, 
com resistencia menor. A especificagao da hipotese alternativa depende muito do grau de 
informagao que se tern do problema. Por exemplo, vamos admitir que a industria do pais B 
para esse caso seja a mais desenvolvida, e nenhum outro pais possa produzir uma resisten¬ 
cia media superior a dela. Entao, nossa hipotese alternativa seria mais explfcita: 

H os parafusos nao sao de origem B (/u < 155 e o qualquer). 

Isso significa que so iremos desconfiar de H 0 sex for muito menor do que 155. Ou 
seja, a nossa regra de decisao devera ser semelhante a vista anteriormente. Como os 
parametros sob a hipotese alternativa sao muitos, a melhor solugao para construir a 
regra de decisao e fixar a, a probabilidade do erro de tipo I (rejeitar H 0 quando ela for 
verdadeira). Se fixarmos novamente a = 0,5, e nesse caso a regra de decisao depende 
apenas das informagoes de H 0 , a regra de decisao sera a mesma anterior: 

Sex for superior a 148,42, diremos que o lote e de origem B; caso contrario, 
diremos que nao e de origem B. 

Com essa regra de decisao e com a hipotese alternativa mais ampla, nao podemos 
encontrar /?, pois nao temos urn unico parametro /u como alternativa e nada sabemos 
sobre a. Entao, nao podemos controlar o erro de tipo II. As implicagoes dessa regra de 
decisao estao resumidas na Figura 12.3 e no Quadra 12.2. 


Figura 12.3: Teste H 0 : /u = 155 vs H x : n < 155, com RC =]-«; 148,42], 
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Quadro 12.2: Resumo do teste H 0 : /u = 155, H ^ < 155, com RC =]-°°, 148,42], 


Origem Real 

dos 

Parafusos 

Decisao 

RC , 

X 

148,42 

L-*- nao B 

—►B 

B 

Erro tipo I, a = 5% 

Sem erro 

nao B 

Sem erro 

Erro tipo II, (3 = ? 


Podemos reescrever as hipoteses nessa situagao da seguinte maneira: 

H 0 : n = 155 
H 1 \ n < 155 

0 calculo de p depende do valor de n, que nao e especificado. Mas podemos 
considerar a seguinte e importante fungao. 

Definigao. A fungao caracteristica de operagao (fungao CO) do teste acima e definida como 
p(li) = P (aceitar H 0 |/t) = P (X > 148,421//). 

Ou seja, pi/u) e a probabilidade de aceitar H 0 , considerada como uma fungao de n- 

Usualmente, considera-se a fungao ni/j) = 1 - Pin), que e a probabilidade de se 
rejeitar H 0 , como fungao de n- Essa fungao e chamada fungao poder do teste e sera 
estudada abaixo com certo detalhe. Nesses casos consideramos que o e o mesmo para 
todos os valores de n- 

Admitamos, agora, que nao exista razao alguma para acreditarmos que a resistencia 
media dos parafusos de B seja maior ou menor do que a de outros paises. Isso ira nos 
levar a duvidar que os parafusos nao sao de B, se a media observada for muito maior ou 
muito menor do que 155. Esta situagao corresponde a seguinte hipotese alternativa: 

H os parafusos nao sao de origem B in ^ 155). 

Aqui, a regra de decisao devera indicar dois pontosx Cl ex C2 , tais que: 

Sex estiver entrex Cl ex C2 , diremos que os parafusos sao de origem B; sex estiver 
fora do intervalo, diremos que nao sao de origem B. 

Fixado a, a probabilidade do erro I, existirao muitos valores que satisfazem a essa 
condigao. Daremos preferencia aquelas solugoesx Cl ex C2 , simetricas em relagao a me¬ 
dia. Veja a Figura 12.4. 

Voltando ao nosso problema, e fixado a em 5%, temos 

0,05 = P (erro I) = P (X~< x Cl ou X~ > x C2 1 X~ ~ N (155,16)) 

= P (Z < -1,96 ou Z > 1,96), 

e daqui encontramos 

-1,96 = (x Cl - 155)/4 => x Cl = 147,16 
e 

1,96 = (x C2 - 155)/4 => x C2 = 162,84. 
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Figum 12.4: Teste H 0 : ^ = 155 vs H 1 : ju #155. 



Portanto, nesse caso, a regiao de rejeigao da hipotese H 0 e (veja o Quadro 12.3) 

RC = {x G IR |x < 147,16 ou x > 162,84}. 

Do apresentado nesta segao, vemos que, dependendo do grau de informagao que 
se tem do problema, podemos ter regras de decisao uni laterals ou bilaterais. Na segao 
seguinte iremos dar os passos para a construgao de um teste de hi potese. 


Quadro 12.3: Resumo do teste H 0 : n = 155, ^ # 155, com RC = ]-<», 147,16] U [162,84, +°°[. 


Origem Real 

dos 

Parafusos 

Decisao 

RC RC 

147,16 162,£ 

4 X 

B •» -- 

—►nao B-«— 1 

B 

Sem erro 

Erro tipo II, (3 = ? 

nao B 

Erro tipo I, a = 5% 

Sem erro 


■ JTnnrTnTT^H _ 

1. Para decidirmos se os habitantes de uma ilha sao descendentes da civilizaqao A ou B, 
iremos proceder do seguinte modo: 

(i) selecionamos uma amostra de 100 moradores adultos da ilha, e determinamos a altura 
media deles; 

(ii) se essa altura media for superior a 176, diremos que sao descendentes de B; caso 
contrario, sao descendentes de A. 

Os parametros das alturas das duas civilizaqoes sao: 

A : /j. = 175 e a = 10; 

B : n =177 e a = 10. 

Definamos: Erro de tipo I — dizer que os habitantes da ilha sao descendentes de B quan- 

do, na realidade, sao de A. 

Erro de tipo I i — dizer que sao de A quando, na realidade, sao de B. 

(a) Qual a probabilidade do erro de tipo I ? E do erro de tipo 11 ? 
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(b) Qual deve sera regra de decisao se quisermosfixara probabilidade do erro detipo I em 
5%? Qual a probabilidade do erro de tipo 11, nesse caso? 

(c) Se (J A = 5, como ficariam as respostas de (b)? 

(d) Quais as probabilidades do erro de tipo II, nas condiqoes da questao (b), se a media 
/d B =178? E /u B - 180? E /u B - 181? Coloque num grafico os pares (/u B , P(erro II \/i B )). 

2. Fazendo o teste 

H 0 : /d = 1.150 (<t = 150) contra H x : n = 1.200 (cr = 200), 
e n = 100, estabeleceu-se a seguinte regiao critica: 

RC =[1.170, +°o[. 

(a) Qual a probabilidade ade rejeitar H 0 quando verdadeira? 

(b) Qual a probabilidade /3deaceitarH 0 quando H 1 e verdadeira? 

(c) Qual deve ser a regiao critica para que a- p? 

3. Nas situaqoes abaixo, escolha como hipotese nula, H 0 , aquela que para voce leva a urn 
erro de tipo I mais importante. Descreva quais os dois erros em cada caso. 

(a) O trabalho de urn operador de radar e detector aeronaves inimigas. Quando surge 
alguma coisa estranha na tela, ele deve decidir entre as hipoteses: 

1. esta comegando urn ataque; 

2. tudo bem, apenas uma leve interferencia. 

(b) Num juri, urn indivfduo esta sendo julgado por urn crime. As hipoteses sujeitas ao juri sao: 

1. o acusado e inocente; 

2. o acusado e culpado. 

(c) Urn pesquisador acredita que descobriu uma vacina contra resfriado. Ele ira conduzir 
uma pesquisa de laboratorio para verificar a veracidade da afirmaqao. De acordo com o 
resultado, ele lanqara ou nao a vacina no mercado. As hipoteses que pode testar sao: 

1. a vacina e eficaz; 

2. a vacina nao e eficaz. 

4. Se, ao lanqarmos tres vezes uma moeda, aparecerem 3 coroas, decidimos rejeitar a hipo¬ 
tese de que a moeda e "honesta". Quais as probabilidades de erro de tipo I e erro de tipo 
II, se p =2/3? 

5. A variavel X, custo de manutenqao de um tear, pode ser considerada como tendo distribui- 
qao normal de media /J. e desvio padrao 20 unidades. Os valores possfveis de /u podem ser 
200 ou 210. Para verificar qual dos dois valores e o mais provavel, usar-se-a uma amostra 
de 25 teares. Defina: 

(a) Uma hipotese a sertestada. 

(b) Uma regra de decisao e encontre as probabilidades dos erros de tipo I e 11. 

12.3 Procedimento Geral do Teste de Hipoteses 

A construgao de um teste de hipoteses, para um parametro populacional, pode ser 
colocada do seguinte modo. Existe uma variavel X associada a dada populagao e tem-se 
uma hipotese sobre determinado parametro 0 dessa populagao. Por exemplo, afirmamos 
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que o verdadeiro valor de 9 e 0 O . Colhe-se uma amostra aleatoria de elementos dessa 
populagao, e com ela deseja-se comprovar ou nao tal hipotese. 

Como ja vimos anteriormente, iniciamos nossa analise explicitando claramente qual 
a hipotese que estamos colocando a prova e a chamamos de hipotese nula, e escrevemos 

H 0 : e = 9 0 . 

Em seguida, convem explicitar tambem a hipotese que sera considerada aceitavel, 
caso H 0 seja rejeitada. A essa hipotese chamamos de hipotese alternativa, e a sua 
caracterizagao estatfstica ira depender do grau de conhecimento que se tern do proble- 
ma estudado. A alternativa mais geral seria 

H 2 : 9 ~f~ 9 0 . 

Poderfamos, ainda, ter alternativas da forma 

H J : 9 < 9 0 ou H x : 9 > 9 0 , 
dependendo das informagoes que o problema traz. 

Qualquer que seja a decisao tomada, vimos que estamos sujeitos a cometer erros. 
Para facilitar a linguagem, introduzimos as definigoes: 

Erro de tipo I: rejeitar a hipotese nula quando essa e verdadeira. Chamamos de a a 
probabilidade de cometer esse erro, isto e, 

a = P (erro do tipo I) = P (rejeitar H 0 |H 0 e verdadeira). 

Erro de tipo II: nao rejeitar H 0 quando H 0 e falsa. A probabilidade de cometer esse 
erro e denotada por /?, logo 

j8 = P (erro do tipo II) = P (nao rejeitar H 0 |H 0 e falsa). 

0 objetivo do teste de hipoteses e dizer, usando uma estatfstica 9, se a hipotese 
H 0 e ou nao aceitavel. Operacionalmente, essa decisao e tomada atraves da conside- 
ragao de uma regiao crftica RC. Caso o valor observado da estatfstica pertenga a essa 
regiao, rejeitamos H 0 ; caso contrario, nao rejeitamos H 0 . Esta regiao e construfda de 
modo que P(0 g RC|H 0 e verdadeira) seja igual a a, fixado a priori. RC recebe o 
nome de regiao crftica ou regiao de rejeigao do teste. Urn fato importante a ressaltar 
e que a regiao crftica e sempre construfda sob a hipotese de H 0 ser verdadeira. A 
determinagao do valor de >3 ja e mais diffcil, pois usualmente nao especificamos 
valores fixos para o parametro sob a hipotese alternativa. Mais adiante trataremos 
dessa situagao, ao considerarmos o poder de urn teste. 

A probabilidade a de se cometer urn erro de tipo I (ou de primeira especie) e urn 
valor arbitrario e recebe o nome de nfvel de significance do teste. 0 resultado da amos¬ 
tra e tanto mais significante para rejeitar H 0 quanto menor for esse nfvel a. Ou seja, quanto 
menor for a, menor e a probabilidade de se obter uma amostra com estatfstica pertencen- 
te a regiao crftica, sendo pouco verossfmil a obtengao de uma amostra da populagao 
para a qual H 0 seja verdadeira. Usualmente, o valor de a e fixado em 5%, 1% ou 0,1%. 
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A fixagao do valor de a envolve uma questionavel arbitrariedade. Neste sentido ha 
um modo alternativo de se proceder, que sera considerado na segao 12.8. 

12.4 Passos para a Construcao de um Teste de Hipoteses 

Vimos nas segoes anteriores o procedimento que se deve usar para realizar um 
teste de hipoteses. Daremos abaixo uma sequencia que pode ser usada sistematica- 
mente para qualquer teste de hipoteses. 

Passo 1. Fixe qual a hipotese H 0 a ser testada e qual a hipotese alternativa H r 

Passo 2. Use a teoria estatfstica e as informagoes disponfveis para decidir qual 
estati sti ca (estimador) sera usada para testar a hi potese H 0 . Obter as propriedades 
dessa estatfstica (distribuigao, media, desvio padrao). 

Passo 3. Fixe a probabilidade a de cometer o erro de tipo I e use este valor para 
construir a regiao crftica (regra de decisao). Lembre que essa regiao e construfda para 
a estatfstica definida no passo 2, usando os valores do parametro hipotetizados por FH 0 . 
Passo 4 Use as observagoes da amostra para calcular o valor da estatfstica do teste. 
Passo 5, Se o valor da estatfstica calculado com os dados da amostra nao pertencer a 
regiao crftica, nao rejeite Fl 0 ; caso contrario, rejeite H 0 . 

Procuraremos, sempre que fizermos teste de hipoteses, distinguir bem esses cinco 
passos. Finalmente um comentario sobre FH 0 e o erro de tipo I. Devemos tomar como H 0 
aquela hi potese, que, rejeitada, conduza a um erro de tipo I mais importante de evitar. 
Vejamos um exemplo devido a Neyman (1978). Suponha um experimento para se deter- 
minar se um produto A eou nao cancerfgeno. Apos realizado o teste, podemos concluir: 
(i) A e cancerfgeno ou (ii) A nao e cancerfgeno. Cada uma dessas conclusoes pode estar 
errada e temos os dois tipos de erro ja mencionados, dependendo de qual hi potese seja 
FH 0 . Do ponto de vista do usuario do produto, a hipotese a ser testada deve ser 

FH 0 : A e cancerfgeno, 

pois a probabilidade de erro na rejeigao dessa hipotese, se ela for verdadeira, deve ser 
um valor muito pequeno. Outros exemplos estao contidos no Problema 3. 

12.5 Testes sobre a Media de uma Populacao com Variancia 
Conhecida 

Vejamos, agora, uma aplicagao dos cinco passos definidos na segao anterior, para 
testar a hipotese de que a media de uma populagao ^ seja igual a um numero fixado n 0 , 
supondo-se a variancia a 2 dessa populagao conhecida. 

Exemplo 12.2. Uma maquina automatica para encher pacotes de cafe enche-os segundo 
uma distribuigao normal, com media /u e variancia sempre igual a 400 g 2 . A maquina foi 
regulada para /u = 500 g. Desejamos, periodicamente, colher uma amostra de 16 pacotes e 
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verificar se a produgao esta sob controle, isto e, s e/u = 500 g ou nao. Se uma dessas amostras 
apresentasse uma media x = 492 g, voce pararia ou nao a produgao para regular a maquina? 
Vejamos como testar essa hipotese. 

Passo 1. Indiquemos por X o peso de cada pacote; entao, X — N (ju, 400). E as hipoteses 
que nos interessam sao: 

H 0 : n = 500 g, 

H 1 : /u # 500 g, 

pois a maquina pode desregular para mais ou para menos. 

Passo 2. Pela afirmagao do problema, a 2 = 400 sera sempre a mesma; logo, para todo /u, 
a media X de 16 pacotes tera distribuigao N(^, 400/16), de modo que o desvio padrao 
(ou erro padrao) de X e cl = 5. Em particular, se H 0 for verdadeira, X ~ N(500,25). 

Passo 3, Vamos fixar a = 1%; pela hi potese alternativa, vemos que H 0 deve ser rejeita- 
da quando X for muito pequena ou muito grande (dizemos que temos urn teste bilate¬ 
ral). Portanto, nossa regiao critica sera como a da Figura 12.5. 


Figura 1 2.5: Regiao critica para o teste H 0 : /u = 500 VS H 1 : n # 500 do Exemplo 12.2. 



Da tabela da curva normal padronizada obtemos que 

z x = -2,58 = (X Cl - 500)/5 => x Cl = 487,1, 
z 2 = 2,58 = [\ 2 - 500)/5 => jg ; = 512,9. 

Segue-se que a regiao critica e 

RC = {X G IR | X ^ 487,1 ou X > 512,9}. 

Passo 4. A informagao pertinente da amostra e sua media, que nesse caso particular eX 0 = 492. 

Passo 5 Como X 0 nao pertence a regiao critica, nossa conclusao sera nao rejeitar H 0 . 
Ou seja, o desvio da media da amostra para a media proposta por H 0 pode ser conside- 
rado como devido apenas ao sorteio aleatorio dos pacotes. 

A situagao analisada nao e muito realista: conhecer a variancia da populagao. O 
caso mais geral, de media e variancia desconhecidas, sera tratado na segao 12.10. 
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6. Sabe-se que o consumo mensal per capita de um determinado produto term distribuigao 
normal, com desvio padrao 2 kg. A diretoria de uma firma que fabrica esse produto resol- 
veu que retiraria o produto da linha de produgao se a media de consumo per capita fosse 
menor que 8 kg. Caso contrario, continuaria a fabrica-lo. Foi realizada uma 
pesquisa de mercado, tomando-se uma amostra de 25 indivfduos, e verificou-se que 

= 180 kg, onde X representa o consumo mensal do i-esimo indivfduo da amostra. 

(a) Construa um teste de hipotese adequado, utilizando a =0,05, e com base na amostra 
colhida determine a decisao a ser tomada pela diretoria. 

(b) Qual a probabilidade p de se tomar uma decisao errada se, na realidade, a media 
populacional for /u = 7,8 kg? 

(c) Se a diretoria tivesse fixado a = 0,01, a decisao seria a mesma? (Justifique sua resposta.) 

(d) Se o desvio da populagao fosse 4 kg, qual seria a decisao, com a = 0,05? (Justifique 
sua resposta.) 

7. A associagao dos proprietaries de industrias metalurgicas esta muito preocupada com o 
tempo perdido com acidentes de trabalho, cuja media, nos ultimos tempos, tern sido da 
ordem de 60 horas/homem por ano e desvio padrao de 20 horas/homem. Tentou-se um 
programa de prevengao de acidentes, apos o qual foi tomada uma amostra de nove 
industrias e medido o numero de horas/homens perdidas por acidente, que foi de 50 horas. 
Voce diria, no nfvel de 5%, que ha evidencia de melhoria? 

8. O salario medio dos empregados das industrias siderurgicas de um pais e de 2,5 salarios 
mfnimos, com um desvio padrao de 0,5 salarios mfnimos. Uma industria e escolhida ao 
acaso e desta e escolhida uma amostra de 49 empregados, resultando um salario medio de 
2,3 salarios mfnimos. Podemos afirmar que esta industria paga salarios inferiores a media 
nacional, com o nfvel de 5%? 

9. Uma companhia de cigarros anuncia que o fndice medio de nicotina dos cigarros que 
fabrica apresenta-se abaixo de 23 mg por cigarro. Um laboratorio realiza 6 analises 
desse fndice, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o fndice de nicotina se distribui 
normalmente, com variancia igual a 4,86 mg 2 . Pode-se aceitar, no nfvel de 10%, a 
afirmagao do fabricante? 

12.6 Teste para Proporcao 

Vamos usar os passos descritos na segao 12.4 para mostrar a construgao do teste 
para proporgoes. 

Passo 1, Temos uma populagao e uma hipotese sobre a proporgao p de indivfduos por- 
tadores de certa caracterfstica. Esta hipotese afirma que essa proporgao e igual a certo 
valor p 0 . Entao, 

H o : P = P 0 - 

0 problema fornece informagoes sobre a alternativa, que pode ter uma das tres 
formas abaixo: 
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(i) H : : p ^ p 0 (teste bilateral); 

(ii) H 1 : p > p 0 (teste unilateral a direita); e 

(iii) Hj : p < p 0 (teste unilateral a esquerda). 

Passo 2 Como vimos na segao 10.9, a estatfstica p, a proporgao amostral, tem uma 

distribuigao aproximadamente normal, a saber, 



Passo 3. Fixado urn valor de a, devemos construir a regiao crftica para p, sob a suposi- 
gao de que o parametro definido por H 0 seja o verdadeiro. Ou seja, podemos escrever 



e, consequentemente, teremos a re giao crftica da Figura 12.6, supondo a alternativa (i) 
acima; sendo que d = Z(l- a/2) V p 0 (l - p 0 )/n e Z(p) e o p-quantiI da normal padrao. 

0 quarto e quinto passos irao depender da amostra, e o procedimento esta descrito 
no exemplo seguinte. 

Figura 12.6; Regiao crftica para o teste H 0 : p = p 0 vs H : : p + p 0 . 



P 


Exemplo 12.3. Uma estagao de televisao afirma que 60% dos televisores estavam 
ligados no seu programa especial da ultima segunda-feira. Uma rede competidora 
deseja contestar essa afirmagao e decide usar uma amostra de 200 famflias para urn 
teste. Qual deve ser o procedimento adotado para avaliar a veracidade da afirmagao da 
estagao? No passo 4 a seguir daremos o resultado da amostra, pois e importante ficar 
claro que esse resultado nao deve influenciar a escolha da alternativa. 

Passo 1. Vamos colocar a prova a afirmagao da estagao, isto e, 

H 0 : p =0,60. 

Sabemos que, se essa hipotese nao for verdadeira, espera-se uma proporgao menor, 
nunca maior. A estagao divulgaria o maximo possfvel. Isso nos leva a hipotese alternativa 

FI 1 : p < 0,60. 
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Passo 2 A estatistica a ser usada e p, a proporgao de 200 famflias que assistiram ao 
programa na ultima segunda-feira, e da teoria sabemos que 


p ~ N 


P. 


pU- pH 
200 /' 


Passo 3. Fixaremos a = 0,05 e sob a suposigao que H 0 seja verdadeira, 

p ~ N (0,60, 0,24/200), 
o que ira fornecer a regiao crftica (veja a Figura 12.7) 

RC = {p G IR Ip ^ 0,544}. 


Figura 12.7: Regiao crftica para o teste H 0 : p = 0,60 vs H 1 : p < 0,60 do 
Exemplo 12.3. 



De fato, devemos achar o valor p c , tal que P(p qj = 0,05, e usando a aproxima- 
gao normal acima, teremos 

Pc - 0,60 \ = Q Q5 
V 0,24/200 ) 

o que implica 

k ~ 0,60 = -1,645, 

V0, 24/200 

o valor -1,645 sendo obtido da normal padronizada. Segue-se que p c = 0,544, 
correspondendo a regiao crftica acima. 

Passo 4. Admitamos que, da pesquisa feita com as 200 famflias, obtivemos 104 pessoas 
que estavam assistindo ao programa. A proporgao da amostra sera p = 104/200 = 0,52. 

Passo 5, Do resultado do passo anterior, vemos que 0,52 e RC; portanto, somos leva- 
dos a rejeitar H 0 . Isto e, ha evidences que a audiencia do programa de segunda-feira 
nao foi de 60% e sim inferior a esse numero. 
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10. Uma pessoa gaba-se de adivinhar qual sera o resultado do lance de uma moeda, mas e 
preciso que os presentes nao o perturbem com pensamentos duvidosos. Para testartal 
capacidade, langou-se uma moeda perfeita 6 vezes, e o adivinhador acertou 5. Qual 
seria sua conclusao? 

11.0 consumidor de urn certo produto acusou o fabricante, dizendo que mais de 20% das 
unidades fabricadas apresentam defeito. Para confirmar sua acusagao, ele usou uma 
amostra de tamanho 50, onde 27% das pegas eram defeituosas. Mostre como o fabrican¬ 
te poderia refutar a acusagao. Utilize um nivel de significancia de 10%. 

12. Um fabricante garante que 90% dos equipamentos que fornece a uma fabrica estao de 
acordo com as especificagoes exigidas. O exame de uma amostra de 200 pegas desse equi- 
pamento revelou 25 defeituosas. Teste a afirmativa do fabricante, nos niveis de 5% e 1%. 

13. Os produtores de um programa de televisao pretendem modificd-lo se for assistido regular- 
mente por menos de um quarto dos possuidores de televisao. Uma pesquisa encomendada 
a uma empresa especializada mostrou que, de 400 familias entrevistadas, 80 assistem ao 
programa regularmente. Com base nos dados, qual deve ser a decisao dos produtores? 


12.7 Poder de um Teste 

Vimos que, na construgao de um teste de hipoteses, procuramos controlar o erro 
de tipo I, fixando sua probabilidade de ocorrencia, a, e construindo a regiao crftica de 
modo que P(RCIH 0 verdadeira) =a. Ou seja, admitindo que H 0 seja verdadeira, estamos 
admitindo conhecido(s) o(s) parametro(s) que define(m) a distribuigao da estatistica 
usada no teste. 

Por outro lado, a probabilidade do erro do tipo II, na maioria dos casos, nao pode 
ser calculada, pois a hipotese alternativa usualmente especifica um conjunto de valo- 
res para o parametro. Voltemos ao exemplo da segao anterior. 

Exemplo 12.2. (continuagao) No exemplo da maquina de encher pacotes de cafe, a v.a. X, 
que descrevia o peso de cada pacote, tinha uma distribuigao normal com media n e variancia 
400, de modo que a media amostral X ~ N (500, 25), sob a hipotese H 0 . Esse fato foi 
utilizado para determinar a regiao critica RC = {x e IR I x < 487,1 ou x > 512,9} e nossa 
regra de decisao para verificar se a maquina estava ou nao produzindo sob controle foi: 

Sex £ RA, a maquina esta sob controle; sex £ RC, nao esta, 

onde RA e a regiao de aceitagao do teste, isto e, o complementar de RC em relagao a 
IR e, portanto, dada no nosso caso por RA = {x e F?|487,1 x 512,9}. 

A probabilidade j8 do erro de tipo II nao pode ser calculada, a menos que se especifique um 
valor alternative para /i. Segue-se que a fungao caracteristica de operagao do teste e dada por 

p(/j) = P (aceitar H 0 \ji) = P (X" e RA \/u) 

= P (487,1 X ^ 512,9)1 /i). 
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Por exemplo, se a maquina se desregular para n = 505, teremos 

p( 505) = P (X e RA \n = 505) = P (-3,58 ^ Z ^ 1,58) = 94,28%, 

usando o fato que agora X ~ N(505, 25). Lembre-se de que supomos que a 2 = 400, sempre! 

Para qualquer outro valor do parametro /u podemos encontrar o respectivo valor de 
p, para a regra de decisao adotada. No Quadro 12.4 temos as decisoes que podemos 
tomar e suas respectivas implicagoes. 


Quadro 12.4: Decisoes possfveis para o teste H Q \ jj = 500 versus H ] : 4 - 500 


Decisao 

Valor real do parametro 

H 0 : n = 500 

500 

a maquina esta 
sob controle: /J = 500 

P(RA | H 0 ) = 0,99 

P(RA | H 1 ) = p 
depende de valor 
alternativo de fu 

a maquina nao esta 
sob controle: /u ¥= 500 

P(RC | H 0 ) = 0,01 

P(RC | HJ = 1-/3 
depende de valor 
alternativo de ^ 


Observe, por exemplo, que 1 - p( 500) = P(rejeitar H 0 |^ = 500) = a = 0,01. 

A quantidade 1 - p(/u) e usualmente chamada de poder ou potencia do teste, e e a 
probabilidade de rejeitar a hipotese H 0 , dado urn valor qualquer de n, especificado ou 
nao pela hi potese alternativa, e sera denotado por j i/j). No nosso exemplo, 

n(/j) = P (rejeitar H 0 l/i) = P(X < 487,1 ou X > 512,9 |/i). 

Na Tabela 12.1 temos alguns valores de p(/j) e de n(/u), para diferentes valores de 
H, e na Figura 12.8 a representagao grafica da determinagao dessa probabilidade. Ob¬ 
serve que quanto maior for a distancia entre o valor fixado em H 0 (/v = 500) e o valor 
atribufdo para a hi potese alternativa, maior sera a probabilidade de tomar a decisao 
correta. Na Figura 12.9 temos o grafico de n(/u) para os valores de ^ da Tabela 12.1. 


Tabela 12.1: Valores de /3(/r) e k(/u), usando a regra de decisao RC= (x E IR |r=s 487,1 ou X > 512,9} 


Verdadeiro 

valor de /u 

7r(/j) (em %) 

PM (em %) 

A esquerda de 500 

Adireita de 500 

500 

500 

1,0 

99,0 

498 

502 

1,7 

98,3 

495 

505 

5,7 

94,3 

492 

508 

16,4 

83,6 

490 

510 

28,1 

71,9 

487 

513 

49,0 

51,0 

485 

515 

66,3 

34,7 

480 

520 

92,1 

7,9 

475 

525 

99,2 

0,8 
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Figura 12.8 Determinacao do poder para 
o teste do Exemplo 1 2.2. 



As seguintes propriedades de n(/u) sao facilmente verificadas: 

(i) 7r(-°°) = 7r(+°°) = 1; 

(ii) 7 t(500) = a\ 

(iii) n decresce para /u < 500 (isto e, dnld/u < 0 para ^ < 500) e n cresce para jj. > 500 
(isto e, dnld/u > 0, para n > 500). 

Vemos que n(/u) indica a probabilidade de uma decisao correta, para as diversas 
alternativas do parametro e pode ser usada para decidir entre dois testes para uma 
mesma hipotese. 

Exemplo 12.4. Se, no Exemplo 12.2, a amostra colhida fosse de 100 pacotes em vez de 
16, e mantivessemos o mesmo nfvel de significancia a = 1%, a nova regiao critica seria 

RC = {x G IR |x 494,8 ou x > 505,2}. 

Construindo a fungao poder para esse teste, obtemos a curva tracejada na Figura 12.9. 
Verifique essas afirmagoes. 

Observando as duas curvas na Figura 12.9, notamos que para todos os valores sob a 
hipotese alternativa, a probabilidade de uma decisao correta e maior para amostras de 
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tamanho 100 do que de tamanho 16. Dizemos, nesse caso, que o teste baseado em 
amostras de tamanho 100 e mais poderoso do que o teste baseado em amostras de tama¬ 
nho 16. Esse fato esta de acordo com a intuigao de que urn teste com amostras maiores 
deve levar a melhores resultados. 

De modo geral, se quisermos testar 

H o :e = 0 o 

H 1 : 0 =/= 0 O , 

e determinada a RC do teste, baseada na estatfstica 0, podemos dar a seguinte defi- 
nigao geral. 

Definigao. A fungao poder (ou potencia) do teste de H 0 contra H 1 e definida por 

n(0) = P (0 6 RC |0), 

ou seja, e a probabilidade de rejeitar a hipotese nula, como fungao de 0. 

0 grafico dessa fungao e semelhante aqueles da Figura 12.9, e n(6) tern as proprie- 
dades (i)-(iii) acima, substituindo 500 por 0 O . 

Se tivermos hipoteses alternativas unilaterais, da forma H 1 : 0 < 0 O ou H x : 0 > 0 O , 
obteremos os graficos da Figura 12.10. 


Figura 12.10: Curvas de poder para alternativas unilaterais. 



Nos exemplos anteriores fixamos o tamanho da amostra, n, e o nivel de significancia, a. 
Suponha que queiramos determinar o tamanho da amostra e os limites da RC, para 
alcangarmos dado poder para determinado valor do parametro. No Exemplo 12.2 po- 
deriamos, por exemplo, fixar tA 510) = 0,80 e 7 t( 500) = 0,05 (o nivel de significancia). 
Dados esses valores, podemos determinar n e a RC. Veja o Problema 33. 
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14. Suponha que estejamos testando H 0 : p =0,5 contra H 1 : p # 0,5, e que, para uma amostra 
de tamanho n = 10, decidimos pela regiao critica RC = {0,1, 2, 8, 9,10}. 

(a) Determine o ntvel de significancia a. 

(b) Calcule o poder do teste para p = 0,2, 0,4, 0,6, 0,8. Faga um grafico do poder como 
fungao de p. 

(c) Qual o poder do teste para p =0,5? 

15. Sendo X o custo de manutengao de um tear, sabe-se que X ~ N (jU, 400). Para testar a 

hipotese H 0 : - 200, contra a alternative H 1 : ji > 200, sera usada uma amostra de 

25 teares. 

(a) Fixando-se a =5%, encontre a correspondente RC. 

(b) Atribuindo-se valores arbitrarios para esboce a fungao poder do teste. 

(c) Para que valores de jUo poder sera maior do que 50%? 

12.8 Valor-p 

0 metodo de construgao de um teste de hipoteses, descrito nas segoes anteriores, 
parte da fixagao do nfvel de significancia a. Pode-se argumentar que esse procedi- 
mento pode levar a rejeigao da hipotese nula para um valor de a e a nao-rejeigao para 
um valor menor. Outra maneira de proceder consiste em apresentar a probabilidade de 
significancia ou nfvel descritivo ou ainda valor-p do teste. Os passos sao muito pare- 
cidos aos ja apresentados; a principal diferenga esta em nao construir a regiao crftica. 
0 que se faz e indicar a probabilidade de ocorrer valores da estatfstica mais extremos 
do que o observado, sob a hipotese de H 0 ser verdadeira. 


Exemplo 12.5. Voltemos ao Exemplo 12.3, onde 


H 0 : p =0,60. 

Como vimos, admitindo essa hipotese verdadeira, p ~ N(0,60; 0,24/200). Colhida a 
amostra obtivemos p 0 = 104/200 = 0,52. Portanto, podemos calcular qual a probabilida¬ 
de de ocorrerem valores de p mais desfavoraveis para H 0 do que esse. E evidente que 
quanto menor for p, maior sera a evidencia contra H 0 : p = 0,60. Assim, calculemos 


P(p< 0,52 | p =0,60) 


p / z < V200(0,52 - 0,60 ) 

' V"04 


= P(Z < -2,30) =0,01 =1%. 


Esse resultado mostra que, se a audiencia do programa fosse de 60% realmente, a 
probabilidade de encontrarmos uma amostra de 200 famflias com 52% ou menos de 
audiencia e de 1%. Isso sugere que, ou estamos diante de uma amostra rara de ocorrer, 1 
em 100, ou entao a hipotese formulada nao e aceitavel. Nesse caso, somos levados a essa 
segunda opgao, ou seja, os dados da amostra sugerem que a hipotese H 0 deve ser rejeitada. 
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0 procedimento esta ilustrado na Figura 12.11. 0 valor-p do teste sera a= 0,01. 


Figure! 12.11: Determinacao do valor-p para o Exemplo 12.5. 



Exemplo 12.6. U m antibiotico A traz em sua bula a seguinte citagao: "Nas broncopneumonias, 
a agao antiinfIamatoria de A e colocada em evidencia pelo estudo dos parametros 
ventiIatorios em duplo-cego contra placebo. Durante o tratamento com A pode-se 
observar uma melhora significativa em relagao ao placebo, da capacidade vital (p < 0,05) 
e o V E M S(p < 0,001) e do debito respiratorio maximo (p < 0,001)”. 

Esse exemplo ilustra o uso cada vez mais difundido em muitas areas aplicadas 
do conceito de valor-p. As afirmagoes do tipo "p < 0,05” acima referem-se a esse 
conceito. Vale a pena comentar urn pouco sobre "estudos duplo-cego", menciona- 
dos acima. Nesse tipo de estudo, urn numero n de indivlduos e dividido em dois 
grupos de tamanhos aproximadamente iguais; a selegao dos indivlduos que vao per- 
tencer a cada grupo e aleatoria. Os indivlduos de urn grupo recebem o tratamento (o 
antibiotico A, no caso), e os do outro grupo recebem placebo (uma substancia inoqua). 
Os pesquisadores que acompanham o experimento nao sabem quern recebeu trata¬ 
mento e quern recebeu placebo, o mesmo acontecendo com os pacientes, dal o nome 
duplo-cego. 

Podemos considerar probabilidades de significancia bilaterais. Urn procedimento 
e tomar o valor-p bilateral como sendo igual a duas vezes o valor-p unilateral. Esta 
pratica e razoavel quando a distribuigao da estatlstica do teste, sob H 0 , for simetrica. 

Exemplo 12.7, Uma companhia de servigos de onibus intermunicipais planejou uma 
nova rota para servir varios locais situados entre duas cidades importantes. Urn estudo 
preliminar afirma que a duragao das viagens pode ser considerada uma v.a. normal, 
com media igual a 300 minutos e desvio padrao 30 minutos. As dez primeiras viagens 
realizadas nessa nova rota apresentaram media igual a 314 minutos. Esse resultado 
comprova ou nao o tempo medio determinado nos estudos preliminares? 

Passo 1. Indicando por X a duragao de cada viagem e por n = E (X), queremos testar 

H 0 : ^ = 300, 

Hj : ju * 300. 
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Passo 2 Amostras de dez viagens terao media X ~ N (p, a 2 l 10). 

Passo 3, Sob a hipotese de que H 0 e verdadeira, e pelo fato de a 2 ser conhecido [a = 
30), teremos 

X" ~ N (300, 900/10). 

Passo 4. Como o valor observado % = 314, podemos encontrar a probabilidade de 
ocorrerem amostras com valores de X mais extremos do que esse: 

P (X" > 314) = P (Z > 31 |j 49 300 ) = P (Z > 1,48) = 0,07. 

Como a distribuigao de X e normal, portanto simetrica, tomamos a = 0,14. Nosso 
problema consiste em decidir se essa probabilidade corresponde ou nao a chance de 
ocorrer urn evento raro. Por ser uma probabilidade nao muito pequena, podemos con- 
cluir que nao existe muita evidencia para rejeitar H 0 . Assim, os estudos preliminares 
parecem estar corretos. 

Urn problema que pode ocorrer com o procedimento acima, de dobrar a probabi¬ 
lidade, e que o valor de a pode ser maior do que urn. Por isso, as vezes e preferivel 
anunciar o valor do valor-p unilateral e a diregao segundo a qual a observagao afasta-se 
de H 0 . No exemplo, o resultado indica que a chance de ocorrerem amostras com me- 
dias iguais ou superiores a 314 e 7%, que e urn valor ainda nao pequeno. Para outro 
metodo, ver o Problema 43. 

Se indicarmos genericamente por do valor-p, rejeitaremos H 0 para aqueles nlveis 
de significancia a maiores do que a. No Exemplo 12.7, rejeitaremos H 0 , por exemplo, 
se a = 0,10, mas nao a rejeitaremos se a = 0,05 ou a = 0,01. Ou seja, se o nlvel 
descritivo for muito pequeno, como o caso a < 0,01 do Exemplo 12.6, ha evidences 
de que a hi potese nao seja valida. Como vimos nesse exemplo, a probabilidade de 
significancia e muitas vezes denotada por p na literatura (p-value). 

Em nosso procedimento de testar uma hipotese estamos usando uma escala de eviden¬ 
ces sugerida por Fisher (1954). Suponha que estejamos testando H 0 contra H l e, como 
vimos, rejeitamos H 0 se o valor-p a for "bastante pequeno". A Tabela 12.2, extrafda de 
Efron e Gous (1997), ilustra a escala de Fisher, contra H 0 (ou a favor de H J. 


Tabela 12.2: Escala de significancia de Fisher. 


valor-p 

0,10 

0,05 

0,025 

0,01 

0,005 

0,001 

Natureza da 
evidencia 

marginal 

moderada 

substancial 

forte 

muito forte 

fortissimo 


Assim, urn valor de a = 0,01 indica uma evidencia forte contra a validade de H 0 , 
a = 0,05 indica uma evidencia moderada etc. E interessante notar que Fisher tomou 
como ponto de referenda o valor 0,05: valores do valor-p menores do que 0,05 indi¬ 
cam que devemos rejeitar a hipotese nula. As consideragoes feitas por Fisher referiam- 
se a testes do qui-quadrado (veja o Capftulo 14). 
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16. Suponha que queiramos testar H 0 : /u = 50 contra H 1 : /u > 50, onde /l ea media de uma 
normal N (//, 900). Extraida uma amostra de n = 36 elementos da populaqao, obtemos 
x = 52. Calcule o valor-pado teste. 

17. Os novos operarios de uma empresa sao treinados a operarem uma maquina, cujo 
tempo X (em horas) de aprendizado e anotado. Observou-se que X segue de perto a 
distribuigao N (25, 100). Uma nova tecnica de ensino, que deve melhorar o tempo de 
aprendizado, foi testada em 16 novos empregados, o quais apresentaram 20,5 horas 
como tempo medio de aprendizado. Usando o valor-p, voce diria que a nova tecnica e 
melhor que a anterior? 


12.9 Teste para a Variancia de uma Normal 

Um teste sobre a variancia desconhecida de uma variavel, com distribuigao nor¬ 
mal, ira usar a distribuigao qui-quadrado, introduzida na segao 7.6. 

Considere a media amostral X e a variancia amostral S 2 , ambas obtidas de uma 
amostra de tamanho n, (X L , ..., X n ) de X ~ N(/u, a 2 ). A soma 



\ a ) \ <7 ) 

tera distribuigao X 2 (n), pois cada (X. - /j)lo tera distribuigao N(0,1). Logo, se definirmos 



( 12 . 1 ) 


vemos que 



( 12 . 2 ) 


tern distribuigao X 2 (n). Observe que o estimador <j| e muito parecido com o estimador 
<j 2 , definido em (11.6), com /u tomando o lugar de X". E muito importante conhecer a 
distribuigao de ( X i - X) 2 - P ara se ter a distribuigao de S 2 , que sera usada no teste 
desta segao. Note inicialmente que 


E(X i -^) 2 =S{(X i - X)+(X - jj)} 2 

i =1 i =1 


n n 


= Z(X i -X) 2 + 2(X -^)S(X r X) + n(X -nY, 

i =1 i =1 


e de Ej (Xj - X) = 0, vem que 


S(X i -^) 2 =S(X i - X) 2 + n(X - at) 2 . 

i =1 i =1 


(12.3) 
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Dividindo ambos os membros por cr 2 , e reescrevendo (12.3) de forma conveniente, teremos 




(12.4) 


0 primeiro membro da expressao (12.4) tem distribuigao X 2 (n), como vimos aci- 
ma. 0 ultimo termo de (12.4) tem distribuigao X 2 (l). Seria, entao, razoavel supor que 
o primeiro termo do segundo membro tenha distribuigao X 2 [r\ - 1). A comprovagao 
desse fato exige recursos fora do alcance deste livro, mas podemos resumir o resulta- 
do da seguinte maneira. 


Teorema 12.1. Seja (Z v ..., Z n ) uma amostra aleatoria simples retirada de uma popula- 
gao N(0,1). Entao: 

(i) Z~tem distribuigao N (0,1/n); 

(ii) as variaveis Z e Z i=1 (Z i - Z) 2 sao independentes; e 

(iii) Z" =1 (Z i - Z~) 2 tem distribuigao Z 2 (n - 1). 

Corolario 12.1. A variavel aleatoria (n - 1)S 2 /<t 2 tem distribuigao j 2 (n - 1). 


Prova. De fato, 
(n 


1)S 2 _ n - 1 1 


i £«. 


X ) 2 = H 

i =1 


Xi-xv 




bastando escrever (X i - X)/c = (X i - ^)/<r- (X - /j)lcr. 

A expressao (12.4) e a propria definigao de X 2 garantem uma propriedade muito 
util: a soma de duas v.a. independentes, cada uma com distribuigao X 2 , e uma v.a. 
tambem com distribuigao X 2 \ 

X 2 (p) +X 2 (q) =X 2 (p +q). 

Voltemos ao nosso problema original. Queremos testar 

H o : cr 2 = cr 2 , 

H 1 : a 2 ± cr 2 . 

Nossas suposigoes sao que X. ~ N(^, a 2 ), i = 1, ..., n e os X ; sao independentes. A 
estatistica do teste sera, sob H 0 , 

X 2 = (n ~ j )S2 ~* 2 (n -1). (12.5) 

Como temos urn teste bilateral, a regiao critica sera da forma RC =(0, X\\ U [X\, +°°), 
tal que 

P(X 2 G RC |H 0 ) = P (0 < X 2 < X\ ou Z 2 > X\) = a, 
sendo a o nivel de significance do teste, fixado a priori. 
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Observado o valor s 0 2 da estatistica S 2 , obteremos o valor xl = ——Se xl e RC, 


rejeitamos H 0 ; caso contrario, aceitamos H 0 . 

Exemplo 12.8. Uma das maneiras de manter sob controle a qualidade de um produto 
e controlar sua variabilidade. Uma maquina de encher pacotes de cafe esta regulada 
para enche-los com media de 500 g e desvio padrao de 10 g. 0 peso de cada pacote X 
segue uma distribuigao N [/u, a 2 ). Colheu-se uma amostra de 16 pacotes e observou-se 
uma vari and a de S 2 = 169 g 2 . Com esse resultado, voce diria que a maquina esta 
desregulada com relagao a variancia? 

Estamos interessados em testar, entao, 


H 0 : a 2 = 100, 
H ■ o- 2 # 100. 


A estatistica para realizar o teste e (12.5), com n = 16. Fixado o nfvel de significance a 
em 5%, teremos da Tabela IV que a regiao critica e dada por RC ={X 2 : 0 ^ X 2 ^ 6,262 ou 
X 2 > 27,488}. Veja a Figura 12.12. O valor observado da estatistica e 


X 2 = (n - 1 )Sq = (15)(169) = 25 35 


a 2 100 


Como X o £ RC, somos levados a aceitar H 0 , isto e, a maquina esta sob controle 
quanto a variancia. 


Figura 12.12: Regiao critica para o teste do Exemplo 12.8. 



O 6,262 


27,488 x 2 (15) 


A construgao do IC (<r 2 ; y) e feita a parti r da expressao 



( 12 . 6 ) 


que permite obter a seguinte desigualdade: 


(n - 1)S 2 ^ < (n - 1)S 2 

y2 " ° ~~ y2 

A 2 A ]_ 

que sera o 1C procurado. Veja a Figura 12.13. 


(12.7) 
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Figura 12.13 Valores criticos para a construgao de um inter- 
valo de confianqa para a variancia. 



Exemplo 12.9. Os dados abaixo referem-se as vendas diarias, em reais, durante uma 
semana, de carros de uma revendedora. Construir um IC (<r 2 ; 90%). 

Vendas : 253, 187, 96, 450, 320, 105. 

Inicialmente, calculamos a variancia amostral, que e s 0 2 = 18.460; em seguida, os 
valores X\ e Z 2 2 que satisfagam (12.6): 

P (1,145 ss X 2 (5) *£ 11,070) = 0,90. 

Substituindo em (12.7) obtemos 

IC((T 2 ; 0,90) = [8.338; 80.611], 


18. De uma populaqao X ~ N (50,100) retira-se uma amostra de dez elementos e calculam-se os 
valores de <7* e S 2 . Encontre os valores pedidos abaixo, com a maior precisao possivel. 

(a) Se P(d£ > a) = 10%, encontre o valor de a. 

(b) Sabendo-se que P(S 2 < a) = 5% e P(S 2 > b) = 5%, encontre a e b. 

(c) P (S 2 < 163,16) = a, encontre a. 

(d) P (S 2 > 100) = a, encontre a. 

(e) P (S 2 < 18) = a, encontre a. 

(f) Se o valor observado de S 2 foi 180, qual a probabilidade de encontrar uma amostra 
que produza um S 2 maior do que o observado? 

19. Observou-se a produqao mensal de uma industria durante varios anos, verificando-se 
que ela obedecia a uma distribuigao normal, com variancia 300. Foi adotada uma nova 
tecnica de produqao e, durante 24 meses, observou-se a produqao mensal. Apos esse 
periodo, constatou-se que X = 10.000 e S 2 = 400. Ha razoes para se acreditar que a 
variancia mudou, ao nivel de 20%? 

20. Numa linha de produqao, e muito importante que o tempo gasto numa determinada 
operaqao nao varie muito de empregado para empregado. 

(a) Que parametro estatfstico poderia ser usado para avaliar esse fato? Por que? 
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(b) Se 11 empregados apresentam os tempos abaixo para realizar essa operagao, qual 
seria a estimativa para a parametro acima? 


125 135 115 120 150 

125 145 125 140 130 


130 


12.10 Teste sobre a Media de uma Normal com Variancia 
Desconhecida 


Vimos, na segao 12.5, como testar a media de uma normal, supondo que a variancia 
seja conhecida. Comentamos que essa nao e uma suposigao realista, logo iremos su- 
por agora que temos uma v.a. X, com distribuigao normal, com media /u e variancia a 2 
desconhecidas. 


No Capitulo 7 introduzimos a distri buigao t de Student. Veremos, a seguir, como 
ela pode ser usada para testar hipoteses sobre n nessa situagao. 


Consideremos a estatfstica 

X - ^ 
S/V~n ' 


( 12 . 8 ) 


Inicialmente, dividamos o numerador e denominador pelo desvio padrao o da 
populagao, e teremos 

((V~n(X - n)lo) 

(S/a) 

0 numerador Z = (V”n (X - /j))/c tern distribuigao N(0, 1), como ja foi visto. 0 
quadrado do denominador pode ser escrito como 


(n - 1)S : 


/ (n - 1) = 


Y 


a* n - 1 

onde Y = (n - l)S 2 /a 2 . M as, como foi visto na segao anterior, se os X ; forem normais, Y 
tern distribuigao Z 2 (n - 1); logo, a estatfstica (12.8) e o quociente entre uma v.a N (0, 1) 
e a raiz quadrada de uma v.a Z 2 (n - 1), dividida pelo numero de graus de liberdade, e 
pelo Teorema 7.1 temos que 

Vn(X - u) 


t(n - 1). 


(12.9) 


Observe que Z e Y sao independentes, pois X e S 2 sao independentes, pelo 
Teorema 12.1 (ii). 

Estamos, agora, em condigoes de testar as hi poteses 

H 0 :/r=/r 0 , 

H !: ju # ^o- 

A hipotese alternativa poderia ser /i > /u 0 ou jj. < n 0 , o que mudaria apenas a regiao 
de rejeigao de bilateral para unilateral (a direita ou a esquerda, respectivamente). 
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A estatistica a ser usada e 

T = ^ o) , (12.10) 

S 

que sabemos agora ter uma distribuigao t de Student com (n - 1) graus de liberdade. Fixado 
o valor de a, podemos usar a Tabela V e encontrar o valor t,, tal que P (|T| < t,) = 1 - a. Veja 
a Figura 12.14. 


Figura 12.14: Valores criticos para o teste t. 


oJ2 / 

'v a/2 

-t c 

l c * 


Colhida a amostra de n individuos, calculamos os valores x 0 e s 2 das estatfsticas X 
e S 2 , respectivamente, e depois o valor t 0 = V~n(x 0 - n 0 )l s 0 de T. Se o valor dessa 
estatistica for inferior a - t c , ou superior a t c , rejeita-se H 0 . Caso contrario, aceita-se H 0 . 
Para a construgao de intervalos de confianga, temos que 

p(-t x < ^ (X S ~^ <t r )=y, 

da qual segue o intervalo de confianga 

IC(ju; 7 ) = X±t-^, (12.11) 

7 Vn 

muito parecido com aquele da variancia conhecida. 

Exemplo 12.10. Urn fabricante afirma que seus cigarros contem nao mais que 30 mg 
de nicotina. Uma amostra de 25 cigarros fornece media de 31,5 mg e desvio padrao de 
3 mg. No nivel de 5%, os dados refutam ou nao a afirmagao do fabricante? 

Passo 1 As hipoteses aqui sao: 

H 0 :/r = 30, 

Hj: n > 30. 

Passo 2. Supondo que X, a quantidade de nicotina por cigarro, tenha distribuigao N(^, a 2 ), 
a estatistica 

V25(X - 30) 

“ S 


tera distribuigao t(24). 
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Passo 3, Por ser um teste unilateral, devemos procurar o valor t c tal que 

P (T > t c ) = 0,05. 

Da Tabela V, obtemos t c = 1,711, ou seja, a regiao crftica para a estatistica T e 
RC =[1,711; +«[. 

Passo 4 0 valor observado da estatfstica e 

t = 5(31,5- 30) 

0 3 

Passo 5. Como t 0 pertence a regiao crftica, rejeitamos H 0 , ou seja, ha evidencias de que 
os cigarros contenham mais de 30 g de nicotina. 

Outra maneira de proceder e calcular o valor-p, ou seja, 

a = P (T >t 0 |H 0 ) = P (T > 2,51H 0 ) =0,01. 

Esse valor pequeno de a leva a rejeigao de H 0 . 

Para construir um \C(/u‘, 0,95), verificamos na Tabela V que o valor t r = 2,064 e, 
portanto, 

1 C (is, 0,95) = 31,5 ± (2,064) 3/V25, 

ou seja, 

1C (ax; 0,95) =]30,26; 32,74[. 

Antes de encerrar este capftulo cabe uma observagao. Quando aceitamos uma 
hipotese, estamos concluindo que temos algum conhecimento sobre a distribuigao da 
variavel de interesse. ja quando rejeitamos a hi potese, a distri buigao da variavel nao 
fica especificada. A construgao de intervalos de confianga desempenha um papel im- 
portante nessa situagao. Ressaltamos, tambem, que temos usado a expressao "aceita- 
mos" a hi potese, quando o mais correto talvez fosse "nao rejeitamos" a hi potese. 


21. Da populaqao X ~ N (50, 100) retirou-se uma amostra casual simples de tamanho 
n = 10, calculando-se o valor de X, S e o respectivo valor de t. 

(a) Se P ( | X - 50 1 < tS/VlO) =90%, encontre o valor de t. 

(b) Se X - 48 e S 2 = 120, qual a probabilidade de encontrar um valor de t menor que o 
produzido poressa amostra? 

(c) Se S 2 = 120, calcule a P (| X - 501 < 2). 

22. O tempo medio, por operario, para executor uma tarefa, tern sido 100 minutos, com um 
desvio padrao de 15 minutos. Introduziu-se uma modificaqao para diminuir esse tempo, e, 
apos certo perfodo, sorteou-se uma amostra de 16 operarios, medindo-se o tempo de 
execuqao de cada um. O tempo medio da amostra foi 85 minutos, e o desvio padrao foi 12 
minutos. Estes resultados trazem evidencias estatfsticas da melhora desejada? Em caso 
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afirmativo, estime o novo tempo medio de execugao. (Apresente as suposigoes teoricas 
usadas para resolver o problema.) 

23. Estamos desconfiados de que a media das receitas municipaisper capita das cidades pequenas 
(0 - 20.000 habitantes) e maior do que a das receitas do estado, que e de 1.229 unidades. 
Para comprovar ou nao essa hipotese, sorteamos dez cidades pequenas, e obtivemos os 
seguintes resultados: 1.230; 582; 576; 2.093; 2.621; 1.045; 1.439; 717; 1.838; 1.359. 

Obs.: Para facilitar os calculos, informamos que a soma das observagoes e 13.500, e a 
soma dos quadrados das observagoes e 22.3 3 5.6 5 0 (13.5 00 2 = 182.2 5 0.000). 

(a) Mostre que o teste de hipotese usado, com a =0,05, levara a aceitagao de que a 
media das cidades pequenas e igual a do estado. 

(b) Voce nao acha estranha essa conclusao quando observa que a media da amostra 
obtida e bem maior do que a media do estado? Como voce explicaria isso? 

24. Deseja-se estimar qual a porcentagem media da receita familiar gasta com alimentagao 
pelos moradores de uma grande vila industrial. Para isso, selecionou-se uma amostra de 
16 familias, que apresentou os seguintes resultados: 

41 44 35 42 34 22 42 42 

38 62 29 63 38 45 48 40 

(a) De urn IC de 95% para a porcentagem media de todas as familias de moradares da vila. 

(b) Que suposigao voce fez para responder a pergunta anterior? 

12.11 Problemas e Complementos 

25. A precipitagao pluviometrica anual numa certa regiaotem desvio padrao <7 = 3,1 e media 
desconhecida. Para os ultimos 9 anos, foram obtidos os seguintes resultados: 30,5; 34,1; 
27,9; 35,0; 26,9; 30,2; 28,3; 31,7; 25,8. 

(a) Construa urn teste de hipoteses para saber se a media da precipitagao pluviometrica 
anual e maior que 30,0 unidades. Utilize um nivel de significance de 5%. 

(b) Discuta o mesmo problema, considerando cdesconhecido. 

(c) Supondo que, na realidade, /u =33,0, qual a probabilidade de tirarmos uma conclu¬ 
sao errada? 

26. Supoe-se que determinado tipo de industria deva ter, em media, 30 empregados. Para testar 
tal hipotese, colhe-se uma amostra de 50 industrias, cujo resultado esta abaixo. Caso rejeite 
a hipotese, de um intervalo de confianga para a verdadeira media (suponha que S 2 = c 2 ). 


N a de empregados 

Frequencia 

251-35 

8 

351-45 

10 

451-55 

13 

551-65 

10 

651-75 

9 


27. Uma fabrica de automoveis anuncia que seus carros consomem, em media, 11 litros por 
100 km, com desvio padrao de 0,8 litro. Uma revista resolve testar essa afirmagao e 
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analisa 35 automoveis dessa marca, obtendo 11,3 litros por 100 km como consumo 
medio (considerar distribuigao normal). O que a revista pode concluir sobre o anuncio da 
fabrica, no nfvel de 10%? 

28. Urn dos maiores problemas de uma grande rede de vendas a varejo e a adequagao do 
estoque declarado com o real existente. Decidiu-se fazer a verificagao atraves de procedi- 
mentos amostrais. Indicando por X o total em unidades monetarias de cada produto erm 
estoque, verificou-se que X ~ N (fi, 400). Serao sorteados 4 produtos. O total X de cada 
urn sera verificado e calcular-se-a a media X, que sera a estatistica de decisao. Numa 
determinada filial, o valor declarado de /u e 50. Havendo falta, esse parametro deve ser 
45; no caso de excesso, 58. 

(a) Defina H 0 e H r 

(b) Descreva os erros do tipo I ell. 

(c) Fixando a = 10%, qual a regra de decisao para julgar se o estoque esta correto ou nao? 

(d) Calcule o erro /3. 

(e) Qual o significado de a e nesse problema? 

29. Seja X uma v.a. com distribuigao binomial, com n = 15. Considere H 0 : p & 0,5 contra 
Hj: p < 0,5, com RC ={0, 1,2}. 

(a) Calcule a probabilidade do erro de tipo I. 

(b) Calcule a probabilidade do erro detipo II quando p =0,3. 

(c) Esboce o grafico do poder do teste. 

30. O custoX de manutengao deteares segue uma distribuigao normal, X ~ N (fj, 400). Durante 
muito tempo, o parametro /u tern sido adotado como igual a 200. Suspeita-se que esse parametro 
aumentou, e so nos interessa saber se o novo parametro superior a 210. Assim, queremos 
planejar urn teste em que a = 5% (quando /d -200) e /3 = 10% (quando /u =210). 

(a) Qual deve ser o tamanho da amostra? 

(b) Qual a RC nesse caso? 

31.0 numero medio diario de clientes de urn posto de gasolina tern sido 250, com um desvio 
padrao de 80 clientes. Durante uma campanha de 25 dias, em que os clientes recebiam 
um brinde, o numero medio de clientes foi 280, com um desvio padrao de 50. Voce diria 
que a campanha modificou a distribuigao do numero de clientes do posto? Descreva as 
suposigoesfeitas para a resolugao do problema. 

32. Areceita media, em porcentagem, dos quase 600 municfpios de um estado tern sido 7%. O 
governo pretende melhoraresse fndice e, para isso, esta estudando alguns incentivos. Para 
verificar os efeitos desses incentivos, sorteou 10 cidades e estudou quais seriam as porcenta- 
gens investidas neles. Os resultados foram, em porcentagem, 8,10,9,11,8,12,16,9,12,13. 
Admitindo-se que esses numeros realmente venham a ocorrer, os dados trazem evidencia de 
melhoria? Caso altere a media do estado, de um intervalo de confianga para a nova media. 

33. Para o problema anterior, construa IC (cr 2 ; 90%) e descreva as suposigoes consideradas 
para obtengao da resposta. 

34. A prefeitura de uma cidade quer estimar a proporgao p dos moradores favoraveis a 
mudanga do horario comercial, com o intuito de economizar combustfvel. Essa propor¬ 
gao devera ser estimada com um erro maximo de 5%, a um nfvel de 90% de confianga. 
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(a) Que tamanho devera ter a amostra se a proporgao p esperada deve estar entre 20% 

e 50%? (Justifique a resposta.) 

(b) Numa amostra de 400 moradores, 160 foram favoraveis a mudanga; qual seria o 
intervalo de confianga para p, nesse caso, com y = 0,95? 

35 . Numa pesquisa realizada com 2.000 proprietaries de carros na cidade de Sao Paulo, 800 
responderam que pretendem mudar de carro no decorrer do proximo ano. De um IC de 
90% para a proporgao de todos os proprietaries de carros de Sao Paulo que pretendem 
mudar de carro no proximo ano. 

36 . Um fabricante de um certo tipo de ago especial afirma que seu produto tern um severo 
servigo de controle de qualidade, traduzido pelo desvio padrao da resistencia a tensao, 
que nao e maiordo que 5 kg porem 2 . Um comprador, querendo verificar a veracidade da 
afirmagao, tomou uma amostra de 11 cabos e submeteu-a a um teste de tensao. Os 
resultados foram os seguintes: X =263 e S 2 =48. Estes resultadostrazem alguma evidencia 
contra a afirmagao do fabricante? Use a = 0,05. 

37. Um escritorio de investimento acredita que o rendimento das diversas agoes movimenta- 
das por ele foi de 24%. Mais ainda, a nova estrategia definida deve garantir uma maior 
uniformidade nos rendimentos das diversas agoes. No passado, o desvio padrao do 
rendimento era da ordem de 5%. Para verificar as duas hipoteses, tomaram-se 8 empre- 
sas ao acaso, obtendo-se os seguintes rendimentos (dados em %): 23,6; 22,8; 25,7; 24,8; 
26,4; 24,3; 23,9 e 25. Quais seriam as conclusoes? 

38 . Sendo X o numero de sucessos em n = 10 provas de Bernoulli, queremos testar 
H 0 : P - 0,6. 

(a) Se o teste for unilateral e rejeitarmos H 0 para valores pequenos de X, determine a se 
o valor observado de X for 3. 

(b) Determine aseo teste for bilateral, na situagao de (a), isto e, X = 3. 

39 . Considere a situagao do problema anterior e suponha que o valor observado seja 
X = 6. O que acontece no caso (b) do problema anterior? O resultado X = 6 suporta ou 
nao H 0 ? 

40. Valor-p bilateral. Vimos no texto um procedimento para determinar a no caso bilateral. 
Outra possibilidade efazeras probabilidades nas duas caudas complementares em ter- 
mos da distancia a media (ou mediana) da distribuigao sob H . Assim, se X for o valor 
observado de X e m for a media da distribuigao, colocamos 

a = P(Xs3x)+P(X=sm-(x-m)), 

se X estiver na cauda superior e 

a = P (X «x) +P (X m +(m - x)), 
se X estiver na cauda inferior. 

Calcule ausando esse criterio para os Problemas 41 e 42. 



Capi'tulo 1 3 


Inferencia para 
Duas Populates 

13.1 Introducao 

Neste capitulo abordaremos o topico importante de comparar duas populates P, e 
P 2 , baseados em dados fornecidos por amostras dessas populagoes. Como vimos, uma 
grande parte das teenicas usadas em Estatfstica supoe que as variaveis aleatorias 
envolvidas tenham distribuigao normal. Alguns testes que trataremos envolverao a 
normal. Contudo, se essa suposigao de normalidade for violada, procedimentos mais 
"robustos" tern de ser utilizados, e veremos exemplos de tal situagao. 

Uma pergunta que aparece frequentemente em Ciencia e a seguinte: o metodo A e 
melhor do que o B? Em termos estatfsticos, ela equivale a comparar dois conjuntos de 
informagoes, resultantes das medidas obtidas da aplicagao dos dois metodos a dois 
conjuntos de objetos ou indivfduos. 

Uma das dificuldades que enfrentamos e a de caracterizar adequadamente a "igual- 
dade" ou "equivalence" de duas populagoes. Por exemplo, suponha que estamos 
interessados em saber se alunos de duas regioes, A e B, tiveram desempenhos iguais 
em urn mesmo teste nacional. Mais ainda, suponha que tenhamos os resultados do 
teste para "todos os alunos" das duas regioes, isto e, conhecemos as duas populagoes. 
Suponha que calculos posteriores revelem que as medias e desvios padroes das duas 
populagoes sejam iguais, isto e, = /u B e a A = <r B . Sera que isso equivale a dizer que os 
desempenhos nas duas regioes sao equivalentes? Se uma analise mais cuidadosa nao 
for feita, poderemos ser levados a responder afirmativamente a essa questao. Entretan- 
to, observando a Figura 13.1, vemos que e possfvel ter duas distribuigoes com os 
mesmos parametros acima, mas formas bastante distintas. 


Figura 13.1 Distribuiipoes das populagoes A e B, 
c °m^ A =n B =4, <j A =a B =1,16. 
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Esse fato nos remete a necessidade de tambem mencionarmos a forma da distri- 
buigao. Especificada a forma, a igualdade dos parametros que identificam a curva 
implica a igualdade ou coincidence das duas populates. E bem pouco provavel 
que urn mesmo fenomeno obedega a formas de distributes distintas, como no 
exemplo da Figura 13.1. Seguir uma mesma distribuigao, porem com parametros 
distintos, e mais verossimil. Como a normal e urn modelo importante e seguido por 
muitas variaveis de interesse pratico, estaremos admitindo essa forma, a nao ser 
quando uma analise dos dados nos diga o contrario. 

Neste capitulo trataremos de varias situagoes, que passamos a descrever. 

1. Inferences para duas medias: amostras independentes. 

Aqui temos dados na forma de duas amostras, extraidas independentemente de cada 
populagao. E muito comum em experimentos do tipo "controle" versus "tratamento", 
nos quais o interesse principal e verificar o efeito desse ultimo. 0 caso tipico e aquele de 
comparar uma nova droga com uma padrao, usadas para o tratamento de uma doenga. 

Exemplo 13.1. 

(a) Urn curso de Estatistica e ministrado pela televisao para urn grupo de alunos e ao 
vivo para outro grupo. Queremos testar a hipotese de que o curso ao vivo e mais 
eficaz que o curso por meio da televisao. 

(b) Queremos comparar o efeito de duas ragoes, A e B, sobre o crescimento de porcos. 
Dois grupos de porcos em crescimento foram alimentados com as duas ragoes e apos 
cinco semanas verificam-se quais foram os ganhos de peso dos porcos dos dois grupos. 

(c) 20 canteiros foram plantados com uma variedade de milho. Em dez deles urn 
novo tipo de fertilizante e aplicado e nos outros urn fertilizante padrao. Exami- 
nando-se as produgoes dos dois canteiros, queremos saber se ha diferengas sig- 
nificativas entre as produgoes. 

Na maioria das vezes fica claro o que chamamos de controle e tratamento. No 
exemplo (c) acima, os canteiros tratados com o novo fertilizante seriam o grupo de 
tratamento, enquanto os demais, tratados com o fertilizante usual, constituiriam o gru¬ 
po de controle. Mas nos exemplos (a) e (b) essa distingao e apenas convencional. 

Formalmente, o modelo para o problema das duas amostras e o seguinte: as v.a. 
X lf ..., X m representam as respostas do grupo de controle e sao consideradas v.a. inde¬ 
pendentes, com a mesma distribuigao, P x ; Y 1( ..., Y n representam as respostas do grupo 
de tratamento e sao v. a. independentes, com a mesma distribuigao, P 2 . Alem disso, X lf 
..., X m , Y 1( ..., Y n sao independentes entre si. 

A hi potese a ser testada e 

H 0 :P 1 =P 2 - (13.1) 

ou seja, queremos testar a homogeneidade das populagoes de onde as amostras foram 
extraidas. Fl 0 e chamada hi potese de homogeneidade. 
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0 significado de (13.1) dependera muito do interesse do pesquisador em considerar 
qual "tipo" de igualdade implicara a coincidencia das duas distributes. Admitamos que 
tanto P 1 como P 2 sigam uma distribuigao normal, ou seja, P 1 ~ N (n v o 2 ,) e P 2 ~ N(ju 2 , 
& 2 ). Na Figura 13.2 temos as quatro situagoes possfveis. Observando os graficos da Figu¬ 
re 13.2 nao temos duvidas em reconhecer que as duas populates sao iguais no caso (a) e 
diferentes no caso (d). Ja nos outros dois casos, podem existir situagoes em que elas pos- 
sam ser consideradas iguais ou nao. Por exemplo, uma pesquisa pare verificar se o salario 
medio da regiao P 2 e o mesmo da regiao P 2 aceita como resposta verdadeira tanto a situa- 
gao (a) como a (b). Outre pesquisa pare verificar se dois processos produzem pegas com a 
mesma qualidade em termos de dispersao aceita como verdadeiras as situagoes (a) ou (c). 

Assim, a estrategia para comparer duas populagoes, por meio de seus parametros, 
envolve suposigoes sobre a forma das distribuigoes, para depois testar medias e 
variances. E comum estarmos interessados em testar apenas que P 2 e P 2 difiram em 
localizagao (ou posigao), isto e, a alternativa a H 0 e que P 2 esteja a direita de P 2 , ou o 
contrario, mas que ambas tenham a mesma dispersao (caso n 2 ju 2 e o l = o 2 da figu¬ 
ra). Nesse caso, H 0 sera equivalente a 

H 0 : A = 0, (13.2) 

com A = n 2 - n v 


Figura 13.2: (a) ^ = n 2 , a, = a 2 (b) ^ = n 2 , a, + a 2 (c) # n 2 , <7, = a 2 (d) ju, + /u 2/ <7, * a 2 . 



Os testes t de Student e de Wilcoxon, descritos a seguir, sao apropriados para esse 
tipo de situagao. 0 teste t e aplicavel quando P 2 e P 2 supostas sao normais, com medias 
H e n + A, respectivamente, e com a mesma variancia. 0 teste de Wilcoxon aplica-se 
para P 2 e P 2 quaisquer, mas suponha-se que a escala de medidas seja pelo menos 
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ordinal. A analise fica mais facil quando a P x e P 2 sao atribufdas distribuigoes de varia- 
veis contfnuas. Discutiremos a razao desta suposigao adicional. 

Outro caso de interesse e aquele em que queremos testar se as duas medias sao 
iguais, mas as variances sao diferentes. Na Figura 13.1, as duas curvas teriam disper- 
soes diferentes ao redor de suas medias. Entao, urn teste preliminar de igualdade de 
variancias seria necessario. 0 teste t de Student para o caso de populates normais 
sera apresentado neste capitulo. 

A hipotese (13.1) ou (13.2) nos diz que nao ha efeito do tratamento. A alternativa 
usual para H 0 e que o efeito do tratamento e o de aumentar as respostas. Isto e, P 2 gera 
valores maiores que P 1( com maior frequencia. Mas pode ocorrer o contrario: diminuir 
as respostas. Por exemplo, o "tratamento" visa a diminuir o tempo para executar deter- 
minada tarefa. 

2. Inferencias para duas medias: amostras dependentes 

Quando se comparam as medias de duas populates, pode ocorrer uma diferenga 
significativa por causa de fatores externos nao-controlados. Por exemplo, no caso 
do Exemplo 13.4 abaixo, poderia ocorrer que urn dos grupos tivesse vendedores 
mais experientes e habilidosos do que o outro. Logo, a diferenga seria devido a 
esses fatos, e nao ao merito real da tecnica de vendas. Urn modo de contornar esse 
problema e coletar as observagoes em pares, de modo que os dois elementos de cada 
par sejam homogeneos em todos os sentidos, exceto no que diz respeito ao fator que 
queremos comparar. 

Por exemplo, no caso do Exemplo 13.1 (a), para testar os dois metodos de ensino, 
poderfamos usar n pares de gemeos, sendo que urn elemento de cada par recebe aulas 
pela TV e outro ao vivo. Esse procedimento pretende controlar o maior numero possi- 
vel de fatores externos que possam afetar o aprendizado. Se houver diferenga no apren- 
dizado, essa dever-se-a realmente ao metodo. 

Esse procedimento tambem e usado quando observagoes das duas amostras sao 
feitas no mesmo individuo, por exemplo, medindo uma caracterfstica do individuo 
antes e depois de ele ser submetido a urn tratamento. 

0 teste t de Student para observagoes pareadas (ou emparelhadas), supondo nor- 
malidade, e apropriado para essas situagoes. 

3. Inferencias para duas variances: amostras independentes 

Como vimos no item 1, podemos testar se duas amostras independentes pro¬ 
ven de duas populagoes com variances iguais, desconhecidas. Se essas variances 
forem diferentes, o teste tern de ser modificado. Esse teste, sob a suposigao de 
normalidade das duas populagoes, usa uma estatistica que tern uma distribuigao 
especial, chamada F de Snedecor. 

Finalizando esta segao, ressaltamos que poderemos ter mais do que duas amostras, 
e tecnicas semelhantes podem ser desenvolvidas. Veja o Capftulo 15. 
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13.2 Comparacao das Variancias de Duas Populagoes Normals 

A situagao que vamos considerar nesta segao envoive a utiIizagao da distribuigao 
F, estudada na segao 7.7. A descrigao a seguir e importante. 

Uma das distribuigoes amostrais mais usadas, e que corresponde a uma distribuigao 
F, resulta do seguinte problema. Suponha que temos duas amostras independentes, de 
tamanhos n 2 e n 2 , retiradas de duas populagoes normals com a mesma vari and a a 2 . 
Indiquemos os estimadores de o 2 obtidos das amostras por S 2 e Si respectivamente. 
Ja vimos que 


U 

V 


(n t - DS 2 
a 2 


~ X 2 (\ ~ 1 ). 


(n 2 - 1)S 2 2 
a 2 


~ Z 2 (n 2 - 1), 


e portanto a v.a. 

U 

P = ~ F(n : - 1, n 2 - 1). (13.3) 

n 2 - 1 

Essa variavel sera usada no teste desta segao. 

Consideremos, agora, uma amostra X lf ..., X n de uma populagao com distribuigao 
N(/x lf o' 2 ) e uma amostra Y 1( ..., Y m de uma populagao com distribuigao N(/u 2 , <j 2 ). Supo- 
nhamos que as duas amostras sejam independentes. 

Queremos testar 

U . —2 _ _2 _ _2 

H o ■ <7 1 — (T 2 — (7 

H ! : a\ a\. 


Chamemos de S 2 e S 2 as variancias amostrais respectivas. De (13.3) e sob a supo- 
sigao de H 0 ser verdadeira, isto e o\ = a\, temos que 

W = Si/S| ~ F (n - 1, m - 1). (13.4) 


Fixado a, encontramos dois numeros f : e f 2 , da Tabela VI, tais que 
P(W£RC)=P(W<f 1 ouW> f 2 ) = a. 

Os valores f 1 e f 2 sao determinados de modo que P(W < f 2 ) = a/2 = P(W > f 2 ). Na 
pratica, consideramos o quociente (13.4) de tal sorte que Si/S 2 > 1. 

Colhidas as amostras de n e m individuos, respectivamente, das duas populagoes, calcu- 
lamos os valores observados s 2 10 e s 2 20 e o valor observado de W, ou seja, w 0 = s 2 10 /s 2 20 . 

Se w 0 pertencer a regiao crftica, rejeitamos H 0 ; caso contrario, a aceitamos. 
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Exemplo 13.2, Queremos verificar se duas maquinas produzem pegas com a mesma 
homogeneidade quanto a resistencia a tensao. Para isso, sorteamos duas amostras de 
seis pegas de cada maquina, e obtivemos as seguintes resistencias: 


Maquina A: 

145 

127 

136 

142 

141 

137 

Maquina B: 

143 

128 

132 

138 

142 

132 


As hipoteses a serem testadas sao: 


H o : °a 2 = °l = cj2 


Sob a suposigao de normalidade das medidas de resistencia a tensao, para as duas 
maquinas, temos que a v.a. W, definida por (13.4), tern uma distribuigao F(5,5). Fixan- 
do a = 0,10 e consultando a Tabela VI, teremos 


RC = ]0, (5,05)- 1 [U]5,05, +°°[. 

Das amostras encontramos = 40 e s B 2 = 37, portanto w 0 = 1,08. Como esse valor 
nao pertence a regiao crftica, aceitamos H 0 , ou seja, as maquinas produzem com a 
mesma homogeneidade quanto a variabilidade. 

Caso tivessemos rejeitado a hipotese de igualdade das variancias, seria conveniente 
obter urn intervalo de confianga para o quociente das duas variancias. De (13.3) pode- 
mos escrever, quando a\ A a\, 


W = 



U/(n - 1) 
V/(m - 1) 


~ F (n - 1, m - 1), 


e para urn dado y, 0 < y< 1, podemos encontrar dois valores f 2 e f 2 , tais que 

P(f 1 < F(n-1, m-1) < f 2 ) = y. 

Dessa igualdade, segue-se que, com probabilidade y, 


f, < 


Sf 




<f 2 , 


ou seja, o \Q[a 2 2 lo 2 {, y) sera dado por 


fi 


S| 

S 2 1 



(13.5) 


Exemplo 13.3. Suponha que para outras seis medidas para as maquinas A e B do Exem¬ 
plo 13.2 tivessemos S A 2 = 85 e S B 2 = 8. Como w 0 = 85/8 = 10,62, rejeitarfamos H 0 . Entao, o 
1C dado por (13.5) ficaria, com y= 0,90, 


1 _ 8 _ 
5,05 85 


<5,05 


8_ 
85 ' 
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ou seja, 

0,019 < ~z^2 < 0,475. 

°A 

lnvertendo-se, obtemos, tambem, 

2,10 <-5 < 52,6, 

que indica a variagao possfvel, no nfvel fixado, da razao entre as duas variancias. Note que, 
sob H 0 , temos ollol = 1, que nao pertence a esse intervalo. 


1. Da populagao X ~ N (50,100) retirou-se uma amostra casual simples de n = 10 elementos. 
Da populaqao Y ~ N (60,100) retirou-se uma amostra casual simples de m =6 indivlduos, 
independente da primeira. Obtemos as variancias amostrais Sj e S|, respectivamente. 

(a) Encontre o valor de a, tal que P (S^/Sf < a) = 95%. 

(b) Encontre o valor de b, tal que P (S 1 /S 2 > b) = 95%. 

2. Por que em (13.3) as v.a. U e V sao independentes? 

3. Uma das maneiras de medir o grau de satisfaqao dos empregados de uma mesma categoria 
quanto a politico salarial e por meio do desvio padrao de seus salarios. Afabrica A diz ser mais 
coerente na politico salarial do que a fabrica B. Para verificar essa afirmaqao, sorteou-se uma 
amostra de 10 funcionarios nao especializados de A , e 15 de B, obtendo-se os desvios padroes 
S A = 1.000 reais eS B = 1.600 reais. Qual seria a sua conclusao? 

4. Deseja-se comparar a qualidade de urn produto produzido por duas fabricas. Essa quali- 
dade sera definida pela uniformidade com que o produto e produzido em cada fabrica. 
Tomaram-se duas amostras, uma de cada fabrica, medindo-se o comprimento dos produ- 
tos (o resumo dos resultados esta no quadro abaixo). A qualidade das duas fabricas e 
a mesma? Caso a sua resposta seja negativa, de urn intervalo de confianga para 
indicar a intensidade dessa desigualdade. 


Estatlsticas 

Fabrica A 

Fabrica B 

Amostra 

21 

17 

Media 

21,15 

21,12 

Variancia 

0,0412 

0,1734 


13.3 Comparacao de Duas Populacoes: Amostras 
Independentes 

Nesta segao estudaremos o caso onde temos duas amostras independentes, X 1( ..., 
X n e Y 1( ..., Y m , de duas populagoes P x e P 2 , respectivamente. 
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Estaremos interessados em comparar as medias dessas populates, verificando se 
elas podem ser consideradas iguais ou nao. No caso de populates normais, teremos, 
preliminarmente, de usar o que aprendemos na segao anterior, para testar se as variances 
de P 2 e P 2 sao iguais. 

Consideraremos duas situagoes: na primeira, iremos supor que as populates sejam 
normais (reveja os Problemas 32, 33 e 34 do Capftulo 10, os Problemas 31 e 32 do Capf- 
tulo 11 e o Problema 29 do Capftulo 12); na segunda, essa suposigao nao e necessaria. 

13.3.1 Populates Normais 

Aqui, P 2 ~ N (n v cj 2) e P 2 ~ N(^ 2 , a 2 2 ). 

Queremos testar a hipotese (13.1), que aqui fica escrita na forma 

H 0 ' AA — AA 1 

Na situagao da Figura 13.2 (c), a alternativa adequada e 

H,: AA > AA< 

mas supondo as variances iguais. Se estivermos apenas interessados em verificar se 
existe diferenga entre as medias das duas populagoes, nao importando a diregao, entao 
a alternativa adequada sera 

H!: AA ■ 

Para cada amostra calculamos os estimadores da media e da variancia: 


X=i2X„ S| = ^ SIX, - X )’; 


n i=l ' 


y“ = _l Vy ( S 2 = 


2 _ 1 


m -i 


m - 1 ' 


Sob a hi potese H 0 , isto e, aa = AA- 

EOT- Y~) =0, 


Var(X - Y ) = Var(X ) + Var(Y ) = _°1 +_^?. 


(13.6) 

(13.7) 


n m 

Como X~ - Y~ tern distribuigao normal, se as variancias fossem conhecidas, a estatfstica 


Z = X ~ Y — (13.8) 

V <J 2 /n + <Tj/m 

teria distribuigao normal padrao, sob a hi potese nula H 0 , e poderia ser usada para 
testar H 0 contra H r Contudo, nas situagoes de interesse pratico, as variancias nao sao 
conhecidas, devendo ser substitufdas por estimativas convenientes. Aqui, a distribuigao t 
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de Student desempenha papel importante. Notemos que, da definigao da v.a. t de 
Student, t = Vn(X - /j)IS, podemos obter 


t 2 = 


X - jU V 
g/Vn / 


[(n - l)S 2 /g 2 ]/(n - 1) 


~ F(l, n - 1), 


(13.9) 


o que mostra uma relagao entre as distributes t(n - 1) e F(l, n - 1). Observe que o 
numerador de (13.9) e o quadrado de uma N(0, 1) e, portanto, tem uma distribuigao 
X 2 [l), e o denominador e o quociente de uma v.a. X 2 (n - 1) por (n - 1). 

Vamos considerar dois casos. 


(a) M esma Variancia, Desconhecida 

Suponha que, ao testar a hipotese de igualdade de variances, esta nao seja rejei- 
tada, isto e, o\ = o\ = a 2 , porem essa variancia comum e desconhecida. Como S 2 e 
S 2 sao dois estimadores nao-viesados de a 2 , podemos combina-los para obter urn 
estimador comum 


S 2 = 
J p 


(n - l)Si + (m 


1)S 2 2 


n + m - 2 


= S" =1 (X i -X) 2 +Sr= 1 (Y i -Y 
n + m - 2 


(13.10) 


que tambem e urn estimador nao-viesado de a 2 . Mais ainda, cada parcela do numera¬ 
dor de (13.10), quando dividida por a 2 , tera distribuigao qui-quadrado, com (n - 1) e 
(m - 1) graus de liberdade, respectivamente. Logo, teremos que 

( n +m - 2)S _ %2(n + m _ 2 ), (13.11) 

a 2 

Pelo Teorema 7.1, a estatistica 

X - Y 

j _ aV 1/n + 1/m X - Y (13 12) 

Sp/a S P V 1/n + 1/m 

tera uma distribuigao t de Student, com (n + m - 2) graus de liberdade, sob a hipotese 
H 0 , isto e, se ^ = n 2 . 


Tabela 13.1: Dados para duas tecnicas de vendas. 


Dados 

Vendas 

Tecnica A 

Tecnica B 

Media 

68 

76 

Variancia 

50 

75 

Vendedores 

12 

15 
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Exemplo 13.4. Duas tecnicas de venda sao aplicadas por dois grupos de vendedores: 
a tecnica A, por 12 vendedores, e a tecnica B, por 15 vendedores. Espera-se que a 
tecnica B produza melhores resultados. No final de um mes, obtiveram-se os resulta- 
dos da Tabela 13.1. 

Vamos testar, para o nivel de significance de 5%, se ha diferengas significativas entre 
as vendas resultantes das duas tecnicas. Informagoes adicionais permitem supor que as 
vendas sejam normalmente distribuidas, com uma variancia comum o 2 , desconhecida. 

As hipoteses a serem testadas ficam 

H o' ^ B 

Pelas suposigoes acima, podemos usar a estatistica (13.12), com n = 12, m = 15 e 
S p 2 = (11S 2 + 14 S b 2 )/25. Da Tabela V obtemos RC = ]1,708, + °°[. 

Da Tabela 13.1 calculamos 

r 2 _ 11(50) + 14(75) _ RA 

b P u 


0 8V1/12 + 1/15 

Como t 0 g RC, rejeitamos H 0 , ou seja, existe evidencia de que a tecnica B produz 
melhores resultados do que a tecnica A. 

Encontrada diferenga entre os metodos, a continuagao natural e construir um inter- 
valo de confianga para a diferenga A = /u B - /j a . Do resultado (13.12) e facil verificar que 

IC(A; y) =(x 0 - y 0 ) ± tySp V 1/n + 1/m. 

Para o nosso exemplo, com y= 0,95, esse intervalo reduz-se a 
1C (A; 0,95) = 8 ± (2,06)(8) V 1/12 + 1/15 
= 8 ± 6,38 = ] 1,62; 14,38[. 

(b) Variances Desiguais, Desconhecidas 

Quando a hipotese de igualdade de variances for rejeitada, devemos usar a estatistica 

T = - (13.13) 

V Si/n + S 2 2 /m 

Pode-se provar que, sob a veracidade de H 0 , a v.a. T aproxima-se de uma distribui- 
gao t de Student, com o numero de graus de liberdade dado aproximadamente por 
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(A + B ) 2 

A 2 /(n - 1) + B 2 /(m - 1) 


(13.14) 


na qual 

A = Sj/n, B = s\lm. 

Como esse valor e geralmente fracionario, arredonde para o inteiro mais proximo 
para obter o numero de graus de liberdade. 

Exemplo 13.5. Queremos testar as resistencias de dois tipos de vigas de ago, A e B. Toman- 
do-se n = 15 vigas do tipo A e m = 20 vigas do tipo B, obtemos os valores na Tabela 13.2. 
Usando urn teste F com nivel a = 10% rejeitamos a hipotese de variances iguais. 


Tabela 13.2: Medias e variancias para dois tipos de vigas de ago. 


Tipo 

Media 

Variancia 

A 

70,5 

81,6 

B 

84,3 

161,5 

Consideremos as hipoteses 

H o 1 ~ 

H i ■ T^a ^ ■ 



A estatistica a ser usada e (13.13), com v = (182,66)/(2,11 + 3,43) = 32,9, logo 
tomamos v = 33. Com a = 0,05, obtemos da Tabela V que RA = ]-2,0345; 2,0345[. 
Com os dados da Tabela 13.2, temos t 0 = (-13,8)/3,68 = - 3,75. 

Como t 0 e RC, rejeitamos H 0 , ou seja, ha evidences de que os dois tipos de vigas 
tern resistencias medias diferentes. 




emas 


5 . Num estudo comparative do tempo medio de adaptagao, uma amostra aleatoria, de 50 
homens e 50 mulheres de um grande complexo industrial, produziu os seguintes resultados: 


Estatfsticas 

Homens 

Mulheres 

Medias 

3,2 anos 

3,7 anos 

Desvios pad roes 

0,8 anos 

0,9 anos 


Que conclusoes voce poderia tirar para a populagao de homens e mulheres dessa indus- 
tria? (Indique as suposigoes feitas para resolver o problema.) 

6. Diversas politicos em relagao as filiais de uma rede de supermercados estao associadas 
ao gasto medio dos clientes em cada compra. Deseja-se comparar esse parametro para 
duas novas filiais, por meio de duas amostras de 50 clientes cada. As medias obtidas 
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foram 62 e 71, respectivamente. Sabe-se que o desvio padrao, em ambos os casos, deve 
ser da ordem de 20 unidades. E posslvel afirmar que o gasto medio nas duas filiais seja 
o mesmo? Caso contrario, de urn intervalo de confianga para a diferenga. 

7. Uma fabrica de embalagens para produtos quimicos esta estudando dois processos para 
combater a corrosao de suas latas especiais. Para verificar o efeito dos tratamentos, foram 
usadas amostras cujos resultados estao no quadro abaixo (em porcentagem de corrosao 
eliminada). Qual seria a conclusao sobre os dois tratamentos? 


Metodo 

Amostra 

Media 

Desvio Padrao 

A 

15 

48 

10 

B 

12 

52 

15 


8. No Problema 4, teste a hipotese de que as medias dos comprimentos do produto produzido 
pelas duas fabricas sao iguais. 

9. Para investigar a influencia da opgao profissional sobre o salario inicial de recem-forma- 
dos, investigaram-se dois grupos de profissionais: urn de liberals em geral e outro de 
formados em Administragao de Empresas. Com os resultados abaixo, expressos em salarios 
mfnimos, quais seriam suas conclusoes? 


Liberals 

6,6 

10,3 

10,8 

12,9 

9,2 

12,3 

7,0 


Administradores 

8,1 

9,8 

8,7 

10,0 

10,2 

8,2 

8,7 

10,1 


13.3.2 Populacoes Nao-Normais 

Passamos, agora, a descrever um teste que nao faz suposigoes a respeito da 
forma das distribuigoes P x e P 2 , a nao ser que as variaveis envolvidas tenham uma 
escala de medida pelo menos ordinal. Ou seja, podemos abordar o caso de variaveis 
qualitativas ordinais e variaveis quantitativas. Esse teste (chamado de Wilcoxon ou 
de M ann-Whitney) pertence a uma categoria de procedimentos chamados nao- 
parametricos ou livres de distribuigao. 

Teremos para analise amostras independentes das duas populates e queremos 
testar a hipotese (13.1) contra a alternativa de que as distributes diferem em locali- 
zagao: estaremos interessados em saber se uma populagao tende a ter valores maiores 
do que a outra, ou se elas tern a mesma mediana ou media. 

0 teste de Wilcoxon e baseado nos postos dos valores obtidos combinando-se as 
duas amostras. Isso e feito ordenando-se esses valores, do menor para o maior, inde- 
pendentemente do fato de qual populagao cada valor proven. A estatistica do teste e 
a soma dos postos associados aos valores amostrados de uma populagao, P lf por 
exemplo. Se essa soma for grande, isso e uma indicagao de que os valores dessa 
populagao tendem a ser maiores do que os valores de P 2 , e, entao, rejeitamos (13.1). 

No caso de termos uma v.a. qualitativa ordinal, comumente associamos numeros 
as diversas categorias (ou classes, ou atributos), segundo as quais a variavel e classi- 
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ficada. Por exemplo, podemos ter 1 para bom, 2 para muito bom e 3 para otimo. 
Vemos, entao, que esses valores sao os postos, nesse caso, e em outras situagoes 
e preferfvel trabalhar com postos do que com valores arbitrarios associados a 
v.a. qualitativa. 

Quando trabalhamos com v.a. quantitativas poderemos ter valores repetidos nas 
amostras. Veremos como associar postos nesse caso. Para evitar esses empates, uma 
possibilidade e supor que a v.a. seja contfnua, de modo que se X for uma tal variavel, 
P(X = x 0 ) = 0. Essa suposigao e eventualmente necessaria para o desenvolvimento 
teorico do teste, mas na pratica, quer X seja contfnua ou discreta, valores repetidos 
poderao aparecer. 

(a) Observagoes Distintas 

Suponha que tenhamos N observagoes Z v Z 2 , ..., Z N . Ordenando-as da menor para 
a maior obtemos as estatfsticas de ordem, Z a) Z (2) ... Z (N) . Inicialmente, suponha 

que nao haja observagoes coincidentes, de modo que os sinais de sao substitufdos 
por <. Entao, associamos numeros (normalmente 1, 2, ..., N), chamados postos, que 
correspondem as posigoes das observagoes na ordenagao. 0 posto de Z, e igual a 1 + 
(numero de Z i < Z). Assim, dadas as observagoes 

Zj = 0,3, Z 2 = 1,5, Z 3 = - 0,5, Z 4 = 2,0, 
os postos de Z 1( Z 2 , Z 3 e Z 4 serao, respectivamente, 

Rj = 2, R 2 = 3, R 3 = 1, R 4 = 4, 
ja que a ordenagao resulta em 

-0,5 < 0,3 < 1,5 < 2,0, ou Z 3 < Z 3 < Z 2 < Z 4 . 

Exemplo 13.6. Num estudo sobre urn novo metodo para ensinar Matematica ele¬ 
mental foram selecionadas cinco criangas. Destas, tres sao escolhidas ao acaso e 
ensinadas segundo o novo metodo, enquanto as outras duas funcionaram como con- 
trole e receberam instrugao por urn metodo tradicional. Apos urn perfodo de cinco 
semanas e feito urn teste, e as criangas sao ordenadas segundo seu desempenho: a 
crianga que tiver menor nota recebe posto 1, etc., ate a crianga que tiver maior nota 
recebe posto 5. 

O metodo de ensino sera considerado eficaz se as tres criangas que recebem o 
novo metodo tiverem postos altos nessa ordenagao combinada das cinco criangas. 
Seja H 0 a hipotese nula que especifica que o tratamento (novo metodo) nao tern efeito, 
isto e, a nota da crianga nao e afetada se ela for ou nao ensinada pelo novo metodo. Se 
H 0 for verdadeira, o posto atribufdo a cada crianga e determinado somente pela sua 
inteligencia, ou seja, a ordenagao das criangas nao depende de qual recebe tratamento 
e qual funciona como controle. A Tabela 13.3 mostra todos os casos possfveis para a 
ordenagao, onde C indica controle e T, tratamento. 
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Tabela 13.3: Valores de W s para o Exemplo 13.6. 


Postos 

w s 

1 

2 

3 

4 

5 

C 

C 

T 

T 

T 

12 

C 

T 

C 

T 

T 

11 

T 

C 

C 

T 

T 

10 

C 

T 

T 

C 

T 

10 

T 

C 

T 

C 

T 

9 

C 

T 

T 

T 

C 

9 

T 

C 

T 

T 

C 

8 

T 

T 

C 

T 

C 

7 

T 

T 

T 

C 

C 

6 

T 

T 

C 

c 

T 

8 


Vemos que as criangas e seus postos podem ser divididos em dois grupos (tratados e 
controles) de = 10 maneiras diferentes. A suposigao de que as tres criangas recebendo o 

tratamento sao selecionadas ao acaso e de que os tratamentos sao equivalentes, impli- 
ca que todas as dez possibilidades tern a mesma probabilidade 1/10. 

Consideremos a estatistica 


W s = S 1 +S 2 + S 3 , (13.15) 

onde S 1( S 2 e S 3 sao os postos das criangas que receberam o tratamento na amostra combinada. 

Poderiamos considerar como regra de decisao para rejeitar H 0 a ocorrencia de 
W s = 12, correspondendo a ocorrencia de CCTTT, clara superioridade do tratamento. 
Qual seria a probabilidade de esse evento ocorrer por mero acaso, ou seja, quando os 
dois metodos sao equivalentes? Nesse caso teremos 

P (W s = 121H o verdadeiro) = 0,10, 

que e a probabilidade do erro de tipo I, ou seja, o nivel de significancia do teste. M as, 
como vimos antes, usualmente procedemos de maneira oposta, ou seja, fixamos a e 
nao a regra de decisao. 

Como vimos acima, rejeitamos H 0 para valores grandes de W 5 , ou seja, W 5 =* c, 
onde c e uma constante determinada a partir do nivel de significancia do teste, a. 
Obtemos o teste de Wilcoxon: 

"Rejeite H 0 se W 5 ^ c, onde c e determinada por P(W 5 s* c|H 0 e verdadeira) = a ". 
A distribuigao nula (isto e, sob H„) de W s e obtida da Tabela 13.3 e esta na Tabela 13.4. 


Tabela 13.4: Distribuipao de W 5 , observapoes distintas. 


w 

6 

7 

8 

9 

10 

11 

12 

P (W 5 = w) 

1/10 

1/10 

2/10 

2/10 

2/10 

1/10 

1/10 
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A distribuigao de W 5 e simetrica ao redor do valor 9 que, como veremos, representa 
a media de W s , dada por n(N + l)/2, com N = n + m (Ver Figura 13.3). 


Figura 13.3: Distribuigao de W s para o Exemplo 13.6. 










6 7 8 9 10 11 12 w 


Se, por exemplo, a = 0,05, nao existe valor satisfazendo P(W 5 s* c) = 0,05. Podemos 
encontrar c somente para valores de a iguais a 0,1; 0,2; 0,4 etc. Por exemplo, se 
a = 0,1, entao 

P (W s 3= 12) = 0,1 e c = 12. 

Consideremos, agora, a situagao geral. Queremos testar (13.1). Temos duas amos- 
tras independentes, X 1( ..., X n , de P 1( e Y 1( ..., Y m , de P 2 . Seja N = n + m e combinamos as 
duas amostras numa so, ordenamos os N valores no menor para o maior e chamemos 
Si < S 2 < ... < S m os postos dos Yj (tratamentos) e R : < R 2 < ... < R n os postos dos X; 
(controles). Estamos supondo que nao haja empates. Seja 

W s = Si +S 2 + ... +S m (13.16) 

a soma dos postos dos tratamentos. Rejeitamos H 0 se W s =s c. 

No caso bilateral, rejeite H 0 se W s < c 1 ou W 5 > c 2 , para dado a. 

Nao e diffcil verificar que, se a distribuigao de P 2 for contfnua, entao 

P(S 1 =s 1 .S m =sJ=-l (13.17) 

U) 

onde Sj < s 2 < ... < s m e Sj G {1, 2, ..., N }, N = n + m. 

Observagao. Por (13.17) vemos que a distribuigao dos postos e portanto de W s nao depende 
de P 2 . Isso nao ocorrera se P 2 nao for contfnua. Se as distribuigoes P x e P 2 forem contfnuas, 
ha ausencia de empates (isto e, coincidence entre valores de X e de Y). Isso significa que 
poderfamos considerar nossas medidas de X e Y de tal sorte que coincidencias seriam evitadas. 
Na pratica, contudo, as medidas sao feitas em geral com o mesmo numero de casas deci¬ 
mals, de modo que empates podem ocorrer. Essa situagao e analisada abaixo. 

A distribuigao sob H 0 de W s pode ser encontrada como no Exemplo 13.6. Para dado 
valor de w, verificamos quantas amostras de tamanho m, retiradas de P = {1, 2, ..., N} 
fornecem o valor de w. Se #(w; n, m) indicar esse numero, entao, por (13.17), 
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P (W 5 = w | H 0 e verdadeira) 


#(w; n, m) 

N~ 

m 


(13.18) 


Pode-se provar o seguinte resultado (veja, por exemplo, Lehmann, 1975): 


Teorema 13.1. Para a estatfstica W 5 temos: 

E(W S ) = m ( N 2 +1 > , (13.19) 

Var(W 5 ) = nm ^ 2 +1) . (13.20) 


Alem disso, a distribuigao de W s pode ser aproximada pela distribuigao normal; 
quando n, m a v.a. 


7 = W 5 - E(W S ) 
V Var(W s ) 

tern uma distribuigao aproximada N(0, 1). 

Uma estatfstica equivalente a W s e 


(13.21) 


u s = W s - m(m + 1), 


(13.22) 


chamada estatfstica de M ann-Whitney. Ha duas vantagens em se usar U s : 

(a) a distribuigao de U s para n=n 1 em=m 1 ea mesma que a distribuigao de U s quando 
os tamanhos sao invertidos, isto e, para n=m 1 em=n 1 , Isso nao acontece com W s ; 

(b) o valor mfnimo de W 5 e obtido quando os postos dos m tratamentos sao 1, 2, ..., m e 
1 + 2 + ... + m = m(m + l)/2; logo, o valor mfnimo de U s e zero, para quaisquer 
valores de n e m, simplificando a construgao de tabelas. A Tabela VIII do Apendice 
da os valores de P(U s « u). 

Para essa estatfstica temos o resultado seguinte. 


Teorema 13.2. A media e variancia de U 5 sao dadas por 

E(U S )=— (13.23) 

e 

Var ( u 5 ) = nm (N 2 + D , (13.24) 

respectivamente. Alem disso, a distribuigao de U 5 pode tambem ser aproximada por 
uma normal. 
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Exemplo 13.7. Suponha que m = n = 10 e queremos calcular P(W S =s 87). 0 valor tabelado 
e 0,0952, que e encontrado na Tabela VIII com n = m = 10, e levando-se em conta que 
U s = 87 - 10 x 11/2 = 32 e, portanto, P(U S ^ 32) = 0,0952. 

Por outro lado, usando a aproximagao normal, E(W S ) = 105, Var(W s ) = 175, temos 


P(W S 87) = P 


W 5 - 105 
Vl75 


87 - 105 
Vl75 


= P(Z -1,36) 


0,087, 


que esta bem proxima do valor encontrado usando-se a tabela. 

A aproximagao pode ser melhorada usando-se a corregao de continuidade discu- 
tida na segao 7.5, pois aqui tambem estamos aproximando a distribuigao de uma v.a. 
discreta (W s ) por uma distribuigao de variavel contfnua (normal). Verifique que, usando 
essa corregao, obtemos P(W 5 87) ~ 0,0934. 


(b) Observagoes Nao Todas Distintas 

Consideremos, agora, a situagao em que haja observagoes coincidentes, ou empates. 

Suponha, por exemplo, que n = 3, m = 2 e as observagoes sao 

1,3; 1,5; 1,5; 2,1; 2,5. 

Nesse caso, usamos postos medios. Associamos o posto 1 a observagao 1,3; as 
duas observagoes empatadas 1,5 associamos a media dos postos 2 e 3, que seriam 
atribufdas se as observagoes fossem distintas, ou seja, atribufmos o posto (2 + 3)/2 = 
2,5; a observagao 2,1 atribufmos o posto 4 e a observagao 2,5 atribufmos o posto 5. 

Embora a atribuigao de postos seja diferente nesse caso, continuaremos a usar a 
mesma notagao anterior para os postos das observagoes X. e Y i . A di stri bu i gao da 
estatfstica W 5 nao e mais dada por (13.17), pois os valores de S 1( ..., S m nao sao mais os 
anteriores. Retomemos o exemplo dado. Temos que a distribuigao conjunta dos postos 
Sj e S 2 sera: 

P (S 1 = 1, S 2 = 2,5) = 2/10, P (S l = 1, S 2 = 4) = 1/10, 

P (S 1 = 1, S 2 = 5 ) = 1/10, P (S 1 = S 2 = 2,5) = 1/10, 

P (S 2 = 2,5, S 2 = 4) = 2/10, P (S 2 = 2,5, S 2 = 5) = 2/10, 

P (S 1 = 4, S 2 = 5) = 1/10, 


pois ainda cada uma das Q j = 10 escolhas de dois dos postos medios como S 2 e S 2 sao 
igualmente provaveis. Portanto a distribuigao de W 5 = S 2 + S 2 e dada pela Tabela 13.5. 


Tabela 13.5: Distribuigao de W S( observagoes nao-distintas. 


w 

3,5 

5,0 

6,0 

6,5 

7,5 

9,0 

P (W s = w) 

2/10 

2/10 

1/10 

2/10 

2/10 

1/10 
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Observe que a distribuigao da v.a. W 5 nesse caso nao e simetrica; sera simetrica ao 
redor de m(N + l)/2 se n = m. 

Genericamente, o teste de Wilcoxon, no caso de observagoes empatadas, rejeita H 0 
usando a mesma regra de decisao que no caso de observagoes nao empatadas, exceto que 
a distribuigao de W s vai depender de n, m e dos numeros de observagoes empatadas em 
cada valor, ao contrario da situagao de nao empates, para a qual a distribuigao de W s 
depende somente de n e m. 


Exemplo 13.8. Supondo n = 3, m = 2, as observagoes dos controles sao 1,3, 1,5 e 2,1, 
e as observagoes dos tratamentos sao 1,5 e 2,5. Entao, 


Sj = 2,5, 


S 2 =5, 


Rj = 1, 


R 2 =2,5, 


R 3 =4 


w s = S 1 + S 2 =7,5. 


Pelo que vimos acima, o valor-p sera 


d = P (W 5 > 7,5) = 2/10 + 1/10 = 0,3, 

logo nao rejeitaremos H 0 nos niveis usuais. 

Suponha que temos di observagoes empatadas no menor valor, d 2 observagoes 
empatadas no segundo menor valor etc. ate d e observagoes empatadas no maior 
valor, onde e e o numero de valores distintos. Denominamos (e; d lf ..., d e ) de confi- 
guragao de empates, e a distribuigao de W s dependera dessa configuragao. Assim 
sendo, tabelas teriam de ser construfdas para cada configuragao de empates, o que 
nao e pratico. 0 que se faz e o seguinte: se o numero de empates for pequeno, 
continue a usar a Tabela VIII. Caso contrario, use a aproximagao normal. Nesse 
caso, a media de W s e a mesma anterior, mas a variancia e igual a anterior menos 
uma corregao devida aos empates: 


Var(W.) = mn < N + 1 > 
12 


mn 


12N(N 


— Z(df 
1 ) 1=1 


(13.25) 


A aproximagao normal sera adequada se m e n forem relativamente grandes, e as 
proporgoes d^N nao forem proximas de 1. 


Exemplo 13.9, Em aparelhos dentarios sao usados grampos de dois tipos: urn mode- 
lo em T e outro circunferencial, C. 0 objetivo e verificar se a resistencia a remogao 
de grampos em T e a mesma do modelo C. Foram usados 40 corpos de provas (dente- 
grampo), sendo 20 para o modelo T e 20 para o modelo C, com cinco leituras para 
cada corpo de prova, num total de 100 observagoes para cada modelo. As Figuras 
13.4 e 13.5 mostram os histogramas para os dois modelos, a resistencia sendo 
medida em kg. 
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Figura 13.4: Resistencia a remopao, em kg, para o 
modelo C. 






1 

0,4 0,8 1,2 1,6 2,0 2,4 2,8 


Figura 13.5: Resistencia a remopao, em kg, para o 
modelo T. 



Vemos que ha assimetrias nos histogramas, sugerindo que a aplicagao do teste t de 
Student nao e adequada nessa situagao. A Tabela 13.6 mostra as medias das 5 leituras 
para cada corpo de prova, para o modelo T e para o modelo C (em ordem crescente). 

Admitamos que o grupo de controle seja aquele em que os grampos sejam do tipo 
T, e grampos do tipo C constituam o tratamento. Ordenando as medias da Tabela 13.6 
e atribuindo postos obtemos a Tabela 13.7. 


Tabela 13.6: Valores de resistencia a remopao para os 
dois modelos. 


T 

C 

T 

C 

0,60 

0,52 

1,19 

1,19 

0,63 

0,77 

1,20 

1,20 

0,83 

0,79 

1,26 

1,34 

0,85 

0,79 

1,28 

1,36 

0,91 

0,81 

1,30 

1,38 

0,95 

0,81 

1,37 

1,43 

1,01 

0,89 

1,45 

1,64 

1,03 

0,98 

1,54 

1,71 

1,03 

1,01 

1,68 

2,16 

1,16 

1,18 

2,20 

2,25 
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Tabela 13.7: Postos para o Exemplo 13.9. 


Media 

0,52 

0,60 

0,63 

0,77 

0,79 

0,79 

0,81 

0,81 

0,83 

0,85 

Tipo 

C 

T 

T 

C 

C 

C 

C 

C 

T 

T 

Posto 

1 

2 

3 

4 

5,5 

5,5 

7,5 

7,5 

9 

10 

Media 

0,89 

0,91 

0,95 

0,98 

1,01 

1,01 

1,03 

1,03 

1,16 

1,18 

Tipo 

C 

T 

T 

C 

C 

T 

T 

T 

T 

C 

Posto 

11 

12 

13 

14 

15,5 

15,5 

17,5 

17,5 

19 

20 

Media 

1,19 

1,19 

1,20 

1,20 

1,26 

1,28 

1,30 

1,34 

1,36 

1,37 

Tipo 

C 

T 

T 

C 

T 

T 

T 

C 

C 

T 

Posto 

21,5 

21,5 

23,5 

23,5 

25 

26 

27 

28 

29 

30 

Media 

1,38 

1,43 

1,45 

1,54 

1,64 

1,68 

1,71 

2,16 

2,20 

2,25 

Tipo 

C 

C 

T 

T 

C 

T 

C 

C 

T 

C 

Posto 

31 

32 

33 

34 

35 

36 

37 

38 

39 

40 


Aqui n = m = 20 e queremos testar 

H 0 : a resistencia a remogao e a mesma para os dois tipos de grampos; 
H x : o tipo C apresenta menor resistencia a remogao do que o do tipo T. 
A soma dos postos dos tratamentos e 


W 5 — S x + S 2 + ... + S 2 o — 406,5. 


Usando a aproximagao normal, a v.a. 

7 = W s - E (W 5 ) 

V Var(W s ) ' 


(13.26) 


onde Var(W s ) e dada por (13.25), e tera distribuigao aproximadamente N(0, l). Consul- 
tando a Tabela 13.7, temos 


di — d 2 — d 3 — d 4 — 1, d 5 — 2, d 6 — 2, d 7 — ... — d 12 — 1, 
di3 = 2, d 14 = 2, d 15 = d 16 = 1, d 17 = 2, d 18 = 2, 

d 19 = ■■■ = d 3 4 = 1. 

Aqui, temos e = 34 valores distintos e 

E(W S ) = (20 x 41)/2 =410, 

Var(W s ) = (20 x 20 x 41)/12 - (20 x 20)/(12 x 40 x 39) [(8 - 2) x 6] 

= 1.366,667 - 2,857 = 1.363,810. 

O valor de (13.26) e 

Z = (406,5 - 410)/36,93 = - 0,095. 

Como rejeitaremos H 0 se W s s= c, no nlvel a = 0,05, devemos comparar esse valor 
com o valor -1,64 da normal padrao, portanto nao rejeitamos H 0 . 

Vemos que o valor-p do teste e 
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a = P (W s 406,5) « P (Z ^ - 0,095) = 0,46, 
que e uma indicagao de que a hipotese H 0 deve ser aceita. 

Observagao. Comparagao entre o Teste t e o Teste de Wilcoxon. 

0 teste t baseia-se na suposigao de que as populagoes P x e P 2 sejam normais. Uma 
violagao dessa suposigao altera a distribuigao da estatistica usada no teste e muda as 
probabilidades dos erros de tipo I e II. Dizemos que um teste e robusto contra a violagao 
de uma suposigao se suas probabilidades de erro de tipo I e II nao sao afetadas de forma 
apreciavel pela violagao. 

Pode-se mostrar que o teste t e pouco sensfvel a heterogeneidade de variances se 
m = n, mas ele sera mais afetado se as variances forem diferentes e m A n. 

Os testes t e de Wilcoxon sao comparados atraves de seus poderes em termos de 
uma quantidade chamada eficiencia relativa assintotica, mas nao entraremos em deta- 
Ihes aqui sobre esse assunto. Mas podemos resumir a situagao da seguinte maneira: 

(a) 0 teste t e mais poderoso quando temos populagoes normais, mas a perda de eficien¬ 
cia do teste de Wilcoxon e pequena (menos de 5%) nesse caso; 

(b) havera pouca diferenga entre os dois testes para distribuigoes proximas da normal; 

(c) o teste de Wilcoxon e mais eficiente para distri buigoes que tern caudas "mais pesa- 
das" do que a normal. 

Para se ter uma ideia do que significa mais pesada, observamos que as distribui¬ 
goes t e Cauchy tern distributes com caudas mais pesadas que a normal. Se P 2 e P 2 
forem ambas uniformes, pode-se provar que os dois testes sao igualmente eficientes e 
se P 2 e P 2 forem ambas exponenciais, o teste de Wilcoxon e tres vezes mais eficiente. 


10. Vinte canteiros foram plantados com milho. Em dez deles um novo tipo de fertilizante foi 
aplicado, obtendo-se as produgoes abaixo. Ha diferengas significativas entre as produ¬ 
goes? A alternative e que o novo fertilizante tende a produzir valores maiores. Tome a = 
0,05. Calcule a'. 


Controle 

7,1 

6,0 

8,0 

7,0 

6,6 

7,4 

7,0 

7,0 

6,9 

6,8 

Tratamento 

6,9 

6,8 

7,5 

6,8 

6,9 

6,8 

6,8 

6,8 

6,7 

6,6 


11. Obtenha a distribuigao nula de W s para os casos: 

(a) m = 2, n=2; (b) m=2, n=4; (c) m=n=3. 

12. Calcule as seguintes probabilidades, usando a Tabela VIII e a aproximagao normal. 

(a) m =6, n =7, P(W S « 48) 

(b) m=8, n =10, P(W S «65) 

(c) m = 10, n = 10, P (W s 63) 

13. Encontre a distribuigao nula de W s no caso de empates, para os casos: 
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(a) m = n =3, d 1 = d 2 = l, d 3 =2,d 4 = d 5 = l 

(b) m =n =3, 6 t = d 2 = d 3 = 2 

(c) m =2, n =3, dj = d 2 = 1,d 3 = 3 

14. Faqa os histogramas para W s nos Problemas 11 e 13. 

15. Suponha que as observaqoes dos tratamentos sejam 3, 3, 5 e 7, e as observaqoes dos 
controles sejam 1, 4 e 8, e que o teste de Wilcoxon rejeite para valores grandes de W s . 
Calcule a = P (W s 5 s w), onde Weo valor observado de W s . 

13.4 Comparacao de Duas Populacoes: Amostras Dependentes 

Na segao 13.1 ja discutimos essa situagao. Aqui, temos duas amostras X v ..., X n e Y 1( Y n , 
so que agora as observagoes sao pareadas, isto e, podemos considerar que temos na realidade 
uma amostra de pares (X x , Yj), (X n , Y n ). Se definirmos a v.a. D = X - Y, teremos a amostra 
D 1( D 2 , D n , resultante das diferengas entre os valores de cada par. Observe que reduzimos a 
urn problema com uma unica populagao, conforme estudado nos capftulos anteriores. 

Consideraremos dois casos: no primeiro, supomos que a populagao das diferengas 
e normal; no segundo, supomos que essa populagao e simetrica. 

13.4.1 Populacao Normal 

Nessa situagao, faremos a seguinte suposigao: a v.a. D tern distribuigao normal 
N (/u D , o 2 0 ). Podemos deduzir daqui que 



(13.27) 


tera distri buigao N (/i D , o 2 J n). 
Considere 



(13.28) 


Pelo Teorema 7.1, a estatistica 


T = Vn(D - n D ) 


(13.29) 


S D 

tera distri buigao t de Student, com (n - 1) graus de liberdade. 
Como 


= E (D ) = E(X-Y)=E(X) - E(Y)=/i 1 -/i 2 , 


qualquer afirmagao sobre o n 1 ~ corresponde a uma afirmagao sobre /u D . 
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Exemplo 13.10. Cinco operadores de certo tipo de maquina sao treinados em maqui- 
nas de duas marcas diferentes, A e B. Mediu-se o tempo que cada um deles gasta na 
realizagao de uma mesma tarefa, e os resultados estao na Tabela 13.8. 


Tabela 13.8: Tempos para realizacao de tarefa para cinco operadores. 


Operador 

Marca A 

Marca B 

1 

80 

75 

2 

72 

70 

3 

65 

60 

4 

78 

72 

5 

85 

78 


Com o nivel de significance de 10%, poderfamos afirmar que a tarefa realizada na 
maquina A demora mais do que na maquina B? 

Estamos interessados em testar 


H o ■ 

Essas hipoteses sao equivalentes a 

H o : ^ = 0 

H j: ju D > 0. 

Como e o mesmo operador que realiza a tarefa nas duas maquinas, estamos diante do 
caso em que se pode usar variaveis emparelhadas. Vamos admitir que, sob H 0 , a diferenga 
de tempo segue uma distribuigao normal N(0, c^). Logo, usamos a estatfstica (13.29). 

Para determinar a regiao critica, note que, devido a forma de H 1( devemos encontrar 
t, tal que P(T > t c ) = 0,10, sendo que T tern distribuigao t(4). Usando a Tabela V, obtemos 

RC = ] 1,54; +oo [. 

Da Tabela 13.8 obtemos os valores de D: 

d| : 5, 2, 5, 6, 7 

e, portanto, 

d = 5 e Sp = 3,5. 

0 valor observado da estatfstica T e t 0 = (5/l,87)(V5) = 5,98. Segue-se que 
rejeitamos H 0 , ou seja, demora-se mais para realizar a tarefa com a maquina A. 
Podemos construir um intervalo de confianga para ^ D ; para y = 0,90, 

IC(// A - 0,90) = 1C(ju D ; 0,90) = 5 ± (2,13)(1,87)/V5, 


ou seja, 


ICf^pj 0,90) = ]3,22; 6,78[. 
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13.4.2 Populacao Nao-Normal 

Vamos considerar, agora, um teste baseado nos postos das diferengas D i : o chamado 
teste dos postos sinalizados de Wilcoxon. Para esse teste, supomos que a escala das 
diferengas seja pelo menos intervalar e que os pares (X., Y.) constituam uma A AS. 

Isso implica, em particular, que os D i sao independentes, com a mesma mediana. 
Suponha, ainda, que cada D i tenha uma distribuigao simetrica. Ou seja, as medias e 
medianas coincidem. 

Exemplo 13.11. Suponha que se possa simular um modelo por meio de duas linguagens 
computacionais, que chamaremosA e B. Supostamente, o tempo usando B e menor que 
o tempo usando A. Cinco pares de alunos sao selecionados para o teste, de modo que cada 
membro de um par tenha a mesma habilidade computacional nas duas linguagens do 
que o outro. U m membro de cada par e escolhido ao acaso e este vai usar a linguagem B; 
o outro usara A. 0 tempo de simulagao (em segundos) de cada linguagem e anotado, 
obtendo-se a Tabela 13.9. 


Tabela 13.9: Tempos de simulapao (em segundos) para as linguagens A e B . 


Par 

1 

2 

3 

4 

5 

tempo de B (X) 

300 

410 

420 

410 

400 

tempo de A (Y) 

350 

390 

490 

435 

440 

D =X - Y 

-50 

20 

-70 

-25 

-40 

Posto de | D | 

4 

1 

5 

2 

3 

Posto sinalizado 

-4 

+1 

-5 

-2 

-3 


Queremos testar a hipotese de que os tempos sao semelhantes contra a hipotese de 
que os tempos de B sao menores. Ou, ainda, 

H 1 :m b -Ma=M d <0. 

Na quarta I inha da Tabela 13.9 estao apresentadas as diferengas D : , e os postos sao 
calculados a partir das variaveis |D.|, ou seja, os modulos (ou valores absolutos) dos D i 
(quinta linha). A sexta linha, "posto sinalizado", e obtida atribuindo-se ao posto de |D i | o 
sinal correspondente de D j . Por exemplo, para a primeira observagao, D : = 300 - 350 = -50, 
com |DJ = 50, que tern posto 4 e, portanto, posto sinalizado -4. 

Notamos que so ha um posto positivo, +1. Se indicarmos por T + a soma dos postos 
positivos, rejeitaremos H 0 se T + for "pequeno". E claro que podemos trabalhar com os 
postos negativos tambem, e considerar T = - (soma dos postos negativos). No exemplo, 
T + = 1 e T- =14. Usando T", rejeitaremos H 0 se esta for "grande". Note que T + + T- = 15, 
que e a soma de todos os postos dos |D.|, que, por sua vez, e n(n + l)/2, sendo n = 5 o 
numero de pares. Em geral, devemos usar a menor soma. 

Trabalhemos com T + . Para conduzir o teste, devemos obter a distribuigao dessa 
estatfstica, sob a hipotese nula H 0 . Para isso, note que, se H 0 for verdadeira, cada 
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posto tem a mesma probabilidade de ser associado com um sinal + ou com urn sinal 
Logo, a sequencia de postos sinalizados e uma de todas as possfveis combinagoes 
de ±1, ±2, ±5. Ha 2 5 = 32 tais combinagoes, todas equiprovaveis sob H 0 , ou 

seja, com probabilidade 1/32 . 

Na Tabela 13.10 temos todas as possibilidades juntamente com o valor de T + . Na 
Tabela 13.11 temos a distribuigao de T + . Note que a distribuigao de T + e simetrica, com 
media e mediana iguais a 7,5. 


Tabela 13.10: Sinais possfveis para os postos, Exemplo 13.10. 


1 

2 

3 

4 

5 

T + 

1 

2 

3 

4 

5 

T + 

+ 

+ 

+ 

+ 

+ 

15 

+ 

+ 

- 

+ 

- 

7 

- 

+ 

+ 

+ 

+ 

14 

- 

+ 

- 

- 

+ 

7 

+ 

- 

+ 

+ 

+ 

13 

- 

- 

+ 

+ 

- 

7 

+ 

+ 

- 

+ 

+ 

12 

+ 

- 

- 

- 

+ 

6 

- 

- 

+ 

+ 

+ 

12 

+ 

+ 

+ 

- 

- 

6 

+ 

+ 

+ 

- 

+ 

11 

- 

+ 

- 

+ 

- 

6 

- 

+ 

- 

+ 

+ 

11 

+ 

- 

- 

+ 

- 

5 

+ 

+ 

+ 

+ 

- 

10 

- 

+ 

+ 

- 

- 

5 

- 

+ 

+ 

- 

+ 

10 

- 

- 

- 

- 

+ 

5 

+ 

- 

- 

+ 

+ 

10 

+ 

- 

+ 

- 

- 

4 

- 

+ 

+ 

+ 

- 

9 

- 

- 

- 

+ 

- 

4 

- 

- 

- 

+ 

+ 

9 

+ 

+ 

- 

- 

- 

3 

+ 

- 

+ 

- 

+ 

9 

- 

- 

+ 

- 

- 

3 

+ 

+ 

- 

- 

+ 

8 

- 

+ 

- 

- 

- 

2 

+ 

- 

+ 

+ 

- 

8 

+ 

- 

- 

- 

- 

1 

- 

- 

+ 

- 

+ 

8 

- 

- 

- 

- 

- 

0 


Tabela 13.11: Distribuipao deT + sobH 0 . 


T + 

0 1 

2 3 

4 

5 

6 

7 

8 

9 

10 

11 

12 13 14 15 

Frequencia 

1 1 

1 2 

2 

3 

3 

3 

3 

3 

3 

2 

2 111 


0 valor-p do teste e P(T + 1|H 0 ) = 2/32 = 0,06, usando a Tabela 13.11. Ou seja, 
ha indicagao de que o tempo de simulagao usando a linguagem B e menor do que o 
tempo de A. Observe que temos poucos pares, e o valor a = 0,06 nao e tao pequeno 
(reveja a Tabela 12.2). Mas como temos somente um posto positivo dentre cinco, 
somos levados a duvidar da validade de H 0 . 

Vejamos, agora, o caso geral. Tomemos os valores absolutos das diferengas, ou seja, 

ID,| = IX, - Y,|, i =1, ... m. 

Quando X. = Y. omitir a diferenga correspondente e seja n o numero de diferengas 
estritamente diferentes de zero. Associemos a cada par (X., Y.) o posto do modulo de D, 
correspondente. Use postos medios, se houver D, coincidentes. 
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A hipotese a ser testada e que a media (ou a mediana) das diferengas seja igual a 
zero contra a alternativa que nao seja. Testes unilaterais podem, tambem, ser conside- 
rados. Ou seja, dada a simetria da distribuigao dos D i( iremos testar 

H 0 :^d =0 - 

H !: ^ 0 , 

onde n D representa, como antes, a media das diferengas. 

Considere 


[ R(X,, Y,), seD > 0, 
{-R(X„ Y,), se D, < 0 


onde R(X., Y.) e o posto associado a (X jf Y i ). 

Temos dois casos a tratar: 

(A) Se nao houver empates, use a estatfstica 

T + = E(Ri com D. > 0), (13.31) 

ou seja, a soma dos postos positivos. Use a Tabela IX, pag. 506, para obter os quantis 
w p da estatfstica, ou seja, o valor, tal que P (T + < w p ) p e P (T + > w p ) =s 1 - p, se H 0 for 
verdadeira. Para n > 50 use a aproximagao normal, com media e variancia dados no 
teorema abaixo. Para p > 0,5 o quantil e dado por 

= n(n +1) 

p 2 1_p ' 

(B) Se houver empates, use a estatfstica 

(13.32) 

que tern uma distribuigao aproximadamente N (0,1), sob a hi potese nula. 




Teorema 13.3. A media e variancia de T + sao dadas por 

E(T*)= n|n 4 +1> 
e 

Var(T1 = "( n + 1H2" + H , 

respectivamente. 


(13.33) 

(13.34) 


Exemplo 13.11. (continuagao) Obtivemos aqui T + = 1. A regiao crftica e unilateral a 
esquerda, logo rejeitamos H 0 se T + < w a , onde w„ e o quantil dado pela Tabela IX. Se 
fixarmos a = 0,025 ou a = 0,01, obteremos w„ = 0, com n = 5, e, portanto, aceitaremos 
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H 0 . Se a = 0,05, entao w„ = 1, e o valor observado estara na fronteira da regiao crftica 
e teremos duvidas em aceitar ou rejeitar H 0 . Como salientamos antes, a decisao, 
nesse caso, dependera de uma analise cuidadosa dos resultados, dado o pequeno 
valor de n. 


13.5 Comparacao de Proporcoes em Duas Populacoes 

Nosso objetivo agora e a comparagao das proporgoes de duas populagoes P 1 e P 2 . 
Sendo mais explfcitos, queremos comparar as proporgoes populacionais p 2 e p 2 , por meio 

dos estimadores ^ e [5, obtidos de amostras independentes de tamanhos n 2 e n 2 respectiva- 
mente. Das segoes 10.9 e 12.6 temos 


Pi ~ N 


L Pid-pJl 

/ 

Pi. 

, P 2 ~ N 

1 n i J 

V 


P 2 . 


Pi(l- P 2 ) 


Comparando com o resultado da segao 13.3.1, e tambem do Problema 10.32, obtemos 


Pi - P 2 ~ N 


Pi-P 2 - 


Pi(l- Pi) , P 2 (l- P 


+ - 


«i 


e portanto, a estatfstica de decisao, tanto para a construgao de intervalos de confianga 
como para testes de hipoteses, sera 

z = (P.-PA-1P.-M _ N)0 . 1) . 

Pid-Pil , P;d-P;l 
\ n x n 2 


Mas como os valores dos parametros sao desconhecidos, substituem-se as variancias 
pelas seus estimadores, obtendo-se, como visto em 13.3.1(b), uma distribuigao aproxima- 
damente t de Student. Entretanto, estudos envolvendo proporgoes utilizam amostras gran- 
des e os valores da distribuigao t aproximam-se de valores da normal padronizada. Desse 
modo, para comparagao de duas proporgoes recomenda-se sempre o uso da estatfstica: 

Z = (Pi-P 2 )- ( Pi-P2) , N ( 0|1)- (13.35) 

|Pi(l- pj + p 2 (l- p 2 ) 

]j tij n 2 


Exemplo 13.12: Para langamento da nova embalagem do sabonete SEBO a divisao de 
criagao estuda duas propostas: 

A: amarela com letras vermelhas, ou 
B: preta com letras douradas. 
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Eles acreditam que a proposta A chama a atengao em pelo menos 5% a mais do 
que a proposta B. Para verificar a validade de tal informagao conduziu-se o seguinte 
experimento: em cada um de dois supermercados "semelhantes" foram colocados sa- 
bonetes com cada tipo de embalagem, e a clientes selecionados aleatoriamente foi 
perguntado se tinham notado o sabonete e que descrevessem qual a embalagem. A bai- 
xo estao os resultados. 



Notaram? 


Proposta 

Sim 

Nao 

lotal 

A 

168 

232 

400 

B 

180 

420 

600 

Total 

348 

652 

lOOO 


Os resultados da pesquisa justificam ou nao as suposigoes da divisao de criagao? 
Aqui, consideramos 

H o : Pa - Pb =0-05- H 2 : p A - p B > 0,05. 


Da tabela obtemos: p : = 0,42 e p 2 = 0.30, e aplicando a formula (13.35) obtemos: 

7 _ (0,42 — 0,30) — 0,05 

/ (0,42)(0,58) (0,30)(0,70) ' 

\ 400 600 


Consultando a Tabela III, encontramos o valor-p a =1,19%, o que leva a rejeigao 
de H 0 . O passo seguinte seria a construgao de um Intervalo de Confianga, e novamente 
aplicado a expressao (13.35), obtem-se: 


IC(p A - p B : 95%) = (0,42 - 0,30) ±1,96 


(0,42)(0,58) (0,30)(0,70) 


400 


600 


IC(p - p : 95%)= 0,12±0,036 = [0,084;0,156], 

A B 

Para testar a hipotese de igualdade de proporgoes, p 2 = p 2 , e usando as mesmas 
argumentagoes apresentadas na segao 13.3.1(a), deve-se usar uma estimativa comum 
das variances dada porp c (1— p c ),onde p c =(n 1 p 1 + n 2 p 2 )/(« 1 + /i 2 ), resultando no teste: 


Z = 


(P 1 -P 2 ) 


< 

1 

< 

1—1 

I —1 

Pc(l-Pc) 

— + — 

n l) 


N (0,1) 


(13.36) 


Exemplo 13.12 (continuagao) Voltando ao problema do sabonete SEBO, suponha 
que eles nao sabem se uma embalagem e ou nao mais atraente do que outra, e a 
pesquisa foi feita para responder a essa questao. Portanto 0 teste agora sera: 

^ o 1 Pa — Pb' ^ r Pa ^ Pb 1 
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Da tabela obtemos p c = (348/1000) = 0,348, substituindo em (13.36), obtemos: 


Z = 


0,42-0,30 


0,348(0,652) 


400 + 600 


3,90. 


Consultando a Tabela III, encontramos valor-p proximo de zero, o que leva a rejei- 
gao de H 0 . Como esse resultado mostra que as variancias tambem sao diferentes, a 
construgao do Intervalo de Confianga e obtida do mesmo modo acima. 


;/n n nrrrr^H 


16. Para investigara lealdadedeconsumidores a um determinado produto, sorteou-se uma amostra 
de 200 homens e 200 mulheres. Foram classificados como tendo alto grau de fidelidade 100 
homens e 120 mulheres. Os dados trazem evidencias de diferenga de grau de fidelidade entre 
os sexos? Em caso afirmativo construa um intervalo de confianga para a diferenga. 

17. Em uma amostra de 500 familias da cidade A, constatou-se que 298 haviam comprado, 
durante os ultimos 30 dias, o refrigerante Meca-Mela em sua nova versao incolor. Na 
cidade B esse numero foi de 147 em 300 familias entrevistadas. Na cidade A foi feita uma 
campanha publicitaria atraves da radio local, e nao na cidade B. Os resultados trazem 
evidencias de que as campanhas locais aumentam as vendas? 

18. Um partido afirma que a porcentagem de votos masculinos a seu favor sera 10% a mais que 
a de votos femininos. Em uma pesquisa feita entre 400 homens, 170 votariam no partido, 
enquanto que entre 625 mulheres, 194 Ihe seriam favoraveis. A afirmagao do partido e 
verdadeira ou nao? Caso rejeite a igualdade, de um 1C para a diferenga. 

19. Para investigar os resultados do segundo turno de uma eleigao estadual tomaram-se duas 
amostras de 600 eleitores cada: uma da capital e outra do interior. Da primeira, 276 disse- 
ram que votariam no candidato A, enquanto que 312 eleitores do interior tambem o fariam. 

(a) Estime a proporgao de eleitores da capital que votariam em A. De um IC. 

(b) Existe diferenga nas proporgoes entre capital e interior? 

(c) Que tamanho igual deveriam ter ambas as amostras para que a diferenga entre as 
proporgoes fosse estimada com erro inferior a 2%? 

(d) Qual a proporgao esperada de votos que ira receber o candidato A no estado? 

(e) De uma amostra de 120 indivfduos da classe A e B, 69 sao favoraveis a eleigao em 
dois turnos, enquanto que em uma amostra de 100 indfviduos da classe C, 48 e que 
sao favoraveis. Existe evidencia e diferengas de opinioes em relagao a classe social? 

20. Para verificar a importancia de um cartaz nas compras de certo produto, procedeu-se do 
seguinte modo: 

(a) formaram-se sete pares de lojas; 

(b) os pares foram formados de modo que tivessem as mesmas caracterfsticas quanto a 
localizagao, ao tamanho e ao volume de vendas; 

(c) num dos elementos do par, colocou-se o cartaz; no outro, nao; 

(d) as vendas semanais foram registradas, e os resultados estao a seguir. 

Qual seria a sua conclusao sobre a eficiencia do cartaz? Use o teste t, fazendo as supo- 
sigoes necessarias. 
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Pares 

Vendas 

Sem cartaz 

Com cartaz 

1 

13 

16 

2 

18 

24 

3 

14 

18 

4 

16 

14 

5 

19 

26 

6 

12 

17 

7 

22 

29 


21. Resolva o problema anterior, usando o teste dos postos sinalizados de Wilcoxon. 

22. Aplique o teste de Wilcoxon para os dados do Exemplo 13.10. 

23. Os dados abaixo referem-se a medidas de determinada variavel em 19 pessoas antes e 
depois de uma cirurgia. Verifique se as medidas pre e pos-operatorias apresentam a 
mesma media. Que suposigoes voce faria para resolver o problema? Faga graficos apro- 
priados para verificarsuas suposigoes. 


Pessoas 

Pre 

Pos 

Pessoas 

Pre 

Pos 

1 

50,0 

42,0 

10 

40,0 

50,0 

2 

50,0 

42,0 

11 

50,0 

48,0 

3 

50,0 

78,0 

12 

75,0 

52,0 

4 

87,5 

33,0 

13 

92,5 

74,0 

5 

32,5 

96,0 

14 

38,0 

47,5 

6 

35,0 

82,0 

15 

46,5 

49,0 

7 

40,0 

44,0 

16 

50,0 

58,0 

8 

45,0 

31,0 

17 

30,0 

42,0 

9 

62,5 

87,0 

18 

35,0 

60,0 




19 

39,4 

28,0 


13.6 Exemplo Computacional 

Consideremos as medidas de um indice de placa bacteriana obtidas de 26 criangas 
em idade pre-escolar, antes e depois do uso de uma escova experimental (Hugger). 
Veja o CD-Placa, no final do livro. 

Como temos medidas feitas num mesmo individuo, as duas amostras sao depen- 
dentes. Se quisermos testar se os indices medios de placa bacteriana antes e depois da 
escovagao sao iguais, teremos de usar a metodologia da segao anterior. Usando a 
notagao dessa segao, teremos que testar 

H o 1 A^l — ^2 

H! : ^ > 11 V 

ou, o que e equivalente, 

H o : = 0 

H 1: ^ > O' 
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Na Tabela 13.12 temos os dados e as diferengas d, = x, - y i( i = 1, 2, 26. Na 

Figura 13.6 temos os box plots dos dois conjuntos de dados, que sugerem distribui- 
goes bem diferentes. 


Tabela 13.12: Indices de placa bacteriana. 


Sujeito 

Antes (Xj) 

Depois (y,) 

Q_ 

II 

>< 

< 

Postos de | ct | 

1 

2,18 

0,43 

1,75 

18 

2 

2,05 

0,08 

1,97 

20 

3 

1,05 

0,18 

0,87 

7 

4 

1,95 

0,78 

1,17 

13 

5 

0,28 

0,03 

0,25 

2 

6 

2,63 

0,23 

2,40 

23,5 

7 

1,50 

0,20 

1,30 

16 

8 

0,45 

0,00 

0,45 

3 

9 

0,70 

0,05 

0,65 

5 

10 

1,30 

0,30 

1,00 

10 

11 

1,25 

0,33 

0,92 

8 

12 

0,18 

0,00 

0,18 

1 

13 

3,30 

0,90 

2,40 

23,5 

14 

1,40 

0,24 

1,16 

12 

15 

0,90 

0,15 

0,75 

6 

16 

0,58 

0,10 

0,48 

4 

17 

2,50 

0,33 

2,17 

21 

18 

2,25 

0,33 

1,92 

19 

19 

1,53 

0,53 

1,00 

10 

20 

1,43 

0,43 

1,00 

10 

21 

3,48 

0,65 

2,83 

26 

22 

1,80 

0,20 

1,60 

17 

23 

1,50 

0,25 

1,25 

14,5 

24 

2,55 

0,15 

2,40 

23,5 

25 

1,30 

0,05 

1,25 

14,5 

26 

2,65 

0,25 

2,40 

23,5 

Total 

35,52 

351,0 


Figura 13.6; Box plot para x, (antes) e y, (depois). SPlus. 
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Temos que d = 1,366 e Sp = 0,5631, donde o desvio padrao S D = 0,75. 
A estatfstica do teste e 


, _ Vn(d - 0) _ V26(l,366) 
S D 0,75 


= 9,2864. 


Fixando-se a = 0,01, o valor crftico da estatfstica t com 25 graus de liberdade e 
2,485, que deve ser comparado com o valor obtido acima. Logo, rejeitamos H 0 , de 
modo que a nova escova e eficaz em remover a placa bacteriana. 

O valor-p do teste e 


a = P(t(25) > 9,2864) « 0, 

o que confirma que a hipotese nula deve ser rejeitada. Urn intervalo de confianga para 
H D e dado por [1,063; 1,669], A safda do programa M initab para efetuar esse teste esta 
no Quadro 13.1. Uma breve explicagao dos comandos segue abaixo: 

(a) O comando "Paired Cl, C2" significa que estamos solicitando que seja feito urn 
teste com observagoes pareadas, que estao nas colunas Cl e C2; 

(b) o comando "Test 0.0" significa que queremos urn teste para igualdade de medias; 

(c) o comando "Alternative 1" significa que a hi potese alternativa e aquela estabelecida 
acima, isto e, /u 2 > n 2 , 

(d) o comando "Confidence 95.0" estabelece que o intervalo de confianga a ser 
construfdo tern coeficiente de confianga y= 0,95; 

(e) finalmente, os comandos "GDotplot;" e "GBoxplot." pedem para fazer urn grafico 
de dispersao unidimensional e urn box plot, respectivamente. 

A safda do programa mostra: 

(a) as medias das duas amostras e a diferenga das medias ("Mean"); 

(b) os desvios padroes das duas amostras e das diferengas ("StDev"); por exemplo, 
S D = 0,75, como encontramos acima. 

(c) os erros padroes estimados dos estimadores ("SE Mean"); por exemplo, o erro 
padrao estimado de X - Y e S D /Vn = 0,147; esse valor e usado para construir o 
intervalo de confianga para ^ - /u 2 , 

(d) o intervalo de confianga com c.c. = 0,95 para n x - n 2 , dado por [1,063; 1,669]; 

(e) o valor observado da estatfstica t ("T-value"), no caso t = 9,29, e o valor-p 
("P-value"), que e zero nesse caso. 

Alem dessa safda, podemos pedir graficos ilustrativos. Por exemplo, o dotplot com 
o intervalo de confianga da Figura 13.7. Neste, vemos destacado o valor estipulado 
por H 0 , que, no exemplo, e zero, e nao pertence ao intervalo. Na Figura 13.8 temos o 
box plot das diferengas, com o mesmo intervalo de confianga e H 0 . 
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Quadro 13.1: Testt pareado. Minitab. 

MTB > Paired cl c2; 

SUBC> Confidence 95.0; 

SUBC> Test 0.0; 

SUBC> Alternative 1; 

SUBC> GDotplot; 

SUBC> GBoxplot. 

Paired T-Test and Confidence Interval 

Paired T for Cl - C2 



N 

Mean 

StDev 

SE Mean 

Cl 

26 

1.642 

0.883 

0.173 

C2 

26 

0.276 

0.232 

0.046 

Difference 

26 

1.366 

0.750 

0.147 


95% Cl for mean difference: (1.063,1.669) 

T-Test of mean difference = 0 (vs not = 0): T-Value = 9.29 P-Value = 0.000 


Figura 13.7 Dotplot das diferen^as d,, com o intervalo de confianpa para li b ; tambem mostrados 
H 0 :n a = Oed =1,366. 



Differences 
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Figura 13.8: Box plot para as diferengas dj, com o intervajo de confianga 
para jl Q ; tambem mostrados H 0 : jU D = 0 e d = 1,366. 



13.7 Problemas e Complementos 

24. Uma empresa deseja estudar o efeito de uma pausa de dez minutos para urn cafezinho 
sobre a produtividade de seus trabalhadores. Para isso, sorteou seis operarios, e contou o 
numero de pegas produzidas durante uma semana sem intervalo e uma semana com inter- 
valo. Os resultados sugerem se ha ou nao melhora na produtividade? Caso haja melhora, 
qual deve sero acrescimo medio de produgao para todos os trabalhadores da fabrica? 


Operario 

1 

2 

3 

4 

5 

6 

Sem Intervalo 

23 

35 

29 

33 

43 

32 

Com Intervalo 

28 

38 

29 

37 

42 

30 


25. Numa industria deseja-se testar se a produtividade media dos operarios do periodo diurno 
e igual a produtividade media dos operarios do periodo noturno. Para isso, colheram-se 
duas amostras, uma de cada periodo, observando-se a produgao de cada operario. Os 
resultados obtidos foram os seguintes: 



n 

I x i 

EX? 

Diurno 

15 

180 

2.660 

Noturno 

15 

150 

2.980 


De acordo com esses resultados, quais seriam suas conclusoes? 

26. Num levantamento feito com os operarios da industria mecanica, chegou-se aos se¬ 
guintes numeros: salario medio = 3,64 salarios mmimos e desvio padrao =0,85 salario 
minimo. Suspeita-se que os salarios da subclasse formada pelos torneiros mecanicos 
sao diferentes dos salarios do conjunto todo, tanto na media como na variancia. Que 
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conclusoes voce obteria se uma amostra de 25 torneiros apresentasse salario medio 
igual a 4,22 salarios minimos e desvio padrao igual a 1,25 salario minimo? 

27. Os dados abaixo representam a porcentagem do orgamento gasto com pessoal para 50 
pequenos munidpios de uma certa regiao. 


69,5 

71,6 

73,0 

68,9 

68,9 

70,0 

72,6 

66,2 

68,1 

72,4 

67,6 

73,2 

67,6 

69,7 

71,0 

69,4 

71,5 

73,8 

69,6 

69,6 

68,2 

69,9 

71,4 

70,7 

69,7 

71,0 

66,0 

70,3 

71,7 

69,2 

69,8 

68,4 

69,5 

68,2 

72,1 

70,8 

72,2 

69,2 

71,7 

65,6 

69,6 

70,1 

69,9 

70,5 

68,0 

70,2 

69,0 

66,3 

69,4 

67,1 






(a) Analise estatisticamente os dados. 

(b) Com base na sua analise, e sabendo que na regiao considerada existem, ao todo, 
200 munidpios, em quantos deles voce acha que o gasto com pessoal e maior que 
70% do orgamento? 

(c) Em outra regiao, sabe-se que o gasto medio com pessoal ede65%, e o desvio padrao e 
de20%. Qual das duas regioes e mais homogenea em relagao a essa variavel? Porque? 

28. Uma amostra de 100 trabalhadores de uma fabrica grande demora, em media, 
12 minutos para completar uma tarefa, com um desvio padrao de dois minutos. Uma 
amostra de 50 trabalhadores de uma outra fabrica demora, em media, 11 minutos para 
completar a mesma tarefa, com desvio padrao igual a tres minutos. 

(a) Construa um 1C de 95% para a diferenga entre as duas medias populacionais. 

(b) Deixe bem claro quais as suposigoes feitas para a solugao apresentada. 

29. Deseja-se testar se dois tipos de ensino profissional sao igualmente eficazes. Para isso, 
sortearam-se duas amostras de operarios; a cada uma, deu-se um dos tipos de treina- 
mento e, no final, submeteram-se os dois grupos a um mesmo teste. Que tipo de conclu- 
sao voce poderia tirar, baseando-se nos resultados abaixo? 


Amostra 

N e de elementos 

Media 

Desvio padrao 

Tipo 1 

12 

75 

5 

Tipo II 

10 

74 

10 


30. Numa discussao sobre reajuste salarial, entre empresarios e o sindicato dos empregados, 
chegou-se a um impasse. Os empresarios dizem que o salario medio da categoria e 7,6 
salarios minimos (SM ), e os empregados dizem que e 6,5 SM . Para eliminar duvidas, 
cada um dos grupos resolveu colher uma amostra independente. Os empresarios, com 
uma amostra de 90 operarios, observaram um salario medio de 7,0 SM , com um desvio 
padrao igual a 2,9 SM . Ja a amostra do sindicato, com 60 operarios, apresentou media 
igual a 7,10 SM e desvio padrao de 2,4 SM . 

(a) As amostras colhidas servem para justificar as respectivas afirmagoes dos dois grupos? 

(b) De posse dos dois resultados, qual e o seu parecer? 
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31. ATorrefagao Guarany esta querendo comprar uma nova ensacadora de cafe. Apos con¬ 
sular o mercado, ficou indecisa entre comprar a de marca A ou a de marca B . Quanto 
ao custo, facilidade de pagamento, tamanho etc. elas sao equivalentes. O fator que decidira 
a compra sera a precisao erm encher os pacotes (medido pela variancia). Deseja-se, na 
realidade, testar hipotese al = atraves da estatfstica F -S 2 JSl. Podem-se construir 
regioes criticas bilaterais, unilaterais a direita ou a esquerda, dependendo do objetivo. 
Indique qual seria a regiao crttica mais favoravel as seguintes pessoas: (Justifique.) 

(a) proprietario da torrefagao; 

(b) fabricante de A; e 

(c) fabricante de B. 

32. Um medico deseja saber se uma certa droga reduz a pressao arterial media. Para isso, 
mediu a pressao arterial em cinco voluntaries, antes e depois da ingestao da droga, 
obtendo os dados do quadro abaixo. Voce acha que existe evidencia estatistica de que 
a droga realmente reduz a pressao arterial media? Que suposigoes voce fez para resol¬ 
ver o problema? 


Voluntario 

A 

B 

C 

D 

E 

Antes 

68 

80 

90 

72 

80 

Depois 

60 

71 

88 

74 

76 


33. Uma amostra de 100 lampadas eletricas produzidas pela fabrica A indica uma vida media 
de 1.190 horas, com desvio padrao de 90 horas. Uma amostra de 75 lampadas produzidas 
pela fabrica B indica uma vida media de 1.230 horas, com desvio padrao de 120 horas. 
Admitindo que as variancias populacionais sejam diferentes, voce acha que existe diferenga 
entre as vidas medias populacionais das lampadas produzidas pelas fabricas A e B ? 

34. Queremos comparar dois metodos de ensino A e B. Dispomos de 40 criangas. Podemos 
proceder de duas maneiras: 

(i) Sorteamos 20 criangas para compor uma classe, e as restantes formam outra classe. 
Aplicamos um metodo a cada classe e, depois, fazemos uma avaliagao para todas as 
criangas a respeito do assunto ensinado. 

(ii) Aplicamos inicialmente um teste de inteligencia as 40 criangas. Numeramos as crian¬ 
gas de 1 a 40, segundo o resultado do teste. Consideramos os 20 pares (1, 2), (3, 4), 
..., (39, 40), e de cada par sorteamos uma crianga para cada classe. 

Obtemos, assim, duas classes de 20 criangas, homogeneas quanto a inteligencia. Apli¬ 
camos um metodo a cada classe e depois avaliamos todas as criangas. 

(a) Qual a variavel de observagao em cada procedimento? 

(b) Quais as hipoteses estatfsticas adequadas? 

(c) Qual o teste estatistico de decisao em cada caso? 

(d) Qual dos dois procedimentos voce preferiria? Porque? 

35. De 400 moradores sorteados de uma grande cidade industrial, 300 sao favoraveis a um 
projeto governamental, e de uma amostra de 160 moradores de uma cidade cuja princi¬ 
pal atividade e o turismo, 120 sao contra. 

(a) Voce diria que a diferenga de opinioes nas duas cidades e estatisticamente significante? 
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(b) Qual seria um IC de 90% para a proporgao de favoraveis ao projeto nas duas cidades? 

(Suponha que o numero de pessoas nas duas cidades seja aproximadamente igual.) 

36. Para verificar o grau de adesao de uma nova cola para vidros, preparam-se dois tipos de 
montagem: cruzado (A), onde a cola e posta em forma de X, e quadrado (B), onde a 
cola e posta apenas nas quatro bordas. Os resultados da resistencia para duas amostras 
de 10 cada estao abaixo. Que tipo de conclusao poderia ser tirada? 


Metodo A 

16 

14 

19 

18 

19 

20 

15 

18 

17 

18 

Metodo B 

13 

19 

14 

17 

21 

24 

10 

14 

13 

15 


37. Em um estudo para comparar os efeitos de duas dietas, A e B, sobre o crescimento, 
6 ratos foram submetidos a dieta A, e 9 ratos a dieta B. Apos 5 semanas, os ganhos em 
peso fora m: 


A 

15 

18 

12 

11 

14 

15 




B 

11 

11 

12 

16 

12 

13 

8 

10 

13 


(a) Admitindo que temos duas amostras independentes de populates normais, teste a 
hipotese de que nao ha diferenga entre as duas dietas, contra a alternativa que a 
dieta A e mais eficaz, usando o teste t de Student, no nfvel de a = 0,01. Calcule a. 

(b) Efetue o teste usando a estatfstica de Wilcoxon, com a = 0,01. Calcule a. 

38. As amostras (X x .X 10 ) e (Yj.Y 10 ) de duas populagoes normais com medias jU : e /J. 2 e 

mesma variancia c 2 forneceram as estatfsticas: 

)T = 80, S 2 = 16; Y=83,S 2 2 = 18. 

Teste, com o nfvel a = 0,05, a hipotese H 0 : = n 2 contra a alternativa H 1 : < n r 

39. Em um estudo sobre um novo metodo para ensinar Matematica a alunos do primeiro 
grau, dez criangas foram selecionadas ao acaso de um grupo de 20 e ensinadas pelo 
novo metodo, enquanto as outras dez serviram como controle e ensinadas pelo metodo 
tradicional. Apos dez semanas o desempenho dos alunos em um teste foi avaliado e 
obtiveram-se as seguintes notas: 


Novo metodo 

8,5 

7,5 

9,0 

9,5 

10,0 

7,0 

6,5 

8,0 

8,5 

7,0 

Controle 

7,5 

10,0 

6,5 

5,0 

8,0 

7,5 

4,5 

9,5 

6,5 

7,5 


Teste, com nfvel a = 0,05, a hipotese de que o novo metodo e mais eficaz, utilizando o 
teste t e o teste Wilcoxon. Obtenha aem cada caso. 


40. Seja W R = R x +... + R n a soma dos postos dos controles. Qual o valor de W R + W S ? 

41. Sen=4em=6, prove que P (W s 3= 35) =P (W s =£ 31), usando ofato que W s e simetrica em 
torno de m(N +1)/2. 

42. Se n = 4 e m = 6, prove que P (W s & 35) = P (W R =£ 20). 

43. Para o CD-Placa, teste se a escova convencional e eficaz para remover a placa bacteriana. 
Calcule o valor-p do teste. 
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44. Para o CD-Temperaturas, teste se a temperatura media de Cananeia e igual a temperatura 
media de Ubatuba (suponha que as observagoes para cada cidade sejam independentes, 
embora saibamos que elas nao sao, pois temos dados de series temporais). 

45. Numa pesquisa sobre a opiniao dos moradores de duas cidades, A e B, com relagao a 
urn determinado projeto, obteve-se: 


Cidade 

A 

B 

N s de entrevistados 

400 

600 

N e de favoraveis 

180 

350 


Construa urn IC para a diferenga de proporgoes de opinioes nas duas cidades. 

46. Duas maquinas A e B, sao usadas para empacotar po de cafe. A experiencia passada 
garante que o desvio padrao para ambas e de 10 g. Porem, suspeita-se que elas tern 
medias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da 
maquina A e outra com 16 pacotes da maquina B. As medias foram, respectivamente, 
X A = 502,74 g e X B = 496,60 g. Com esses numeros, e com o nivel de 5%, qual seria a 
conclusao do teste H 0 : /u A 

47. Na regiao sul da cidade, 60 entre 400 pessoas preferem a bebida Meca-Mela entre as 
demais similares. Na regiao norte, a proporgao e de 40 entre 225 entrevistados. Baseado 
no resultado dessa amostra, voce diria que a proporgao de todos os moradores nas duas 
regioes e a mesma? Use a = 0,05. 

48. Uma pesquisa mercadologica sobre fidedignidade a urn produto doi realizada em dois 
anos consecutivos, com duas amostras independentes de 400 donas de casa em cada 
uma delas. A preferencia pela marca em questaofoi de 33% e 29%, respectivamente. Os 
resultados trazem alguma evidencia de mudanga de preferencia? 








Capi'tulo 1 A 


Analise de Aderencia 
e Associacao 

r 


14.1 Introducao 


No Capftulo 4 estudamos como analisar descritivamente dois conjuntos de dados 
provenientes de duas variaveis aleatorias, resumidas na forma de tabelas de dupla entra- 
da. Essas variaveis podem ser qualitativas ou quantitativas, e a ideia era que podfamos 
classificar os elementos da amostra de cada variavel em categorias, ou classes ou ainda 
atributos. Na Tabela 4.11 temos a situagao geral, em que duas v.a. qualitativas X e Y 
foram classificadas em r categorias para X e s categorias para Y. Usaremos a notagao 
dada naquele capftulo (ver segao 4.4). La, estavamos interessados em analisar a possfvel 
associagao entre X e Y, e, para isso, propusemos o uso da estatfstica qui-quadrado de 
Pearson, dada por (4.4), e que repetimos aqui: 


(n i _ n « )2 


i =i i =i 


(14.1) 


onde n’ij denota o valor esperado sob a hipotese de que as duas v.a. nao sao associadas. 
Naquele capftulo apenas notamos que essa estatfstica deveria ser "pequena", se a hipotese H 0 
de nao-associagao fosse verdadeira, e "grande", caso contrario. La tambem estudamos como 
medir, por meio do coeficiente de correlagao, a associagao entre duas variaveis quantitativas. 
Neste capftulo vamos precisar esses conceitos. Alem do teste mencionado no Capftulo 4, 
iremos estudar outros testes que utilizam muito a estatfstica (14.1), bem como outras distri¬ 
butes ja estudadas. Faremos, agora, uma breve resenha sobre esses testes. 


1. Testes de Aderencia 

Temos uma populagao P e queremos verificar se ela segue uma distribuigao 
especificada P 0 , isto e, queremos testar a hipotese H 0 : P = P 0 . No Capftulo 12 vimos tambem 
como testar essa hipotese, empregando testes sobre os parametros media e variancia. 
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Aqui, o teste comparara o numero de casos ocorridos em caselas especificadas, com o 
numero esperado de casos nelas, quando a hipotese H 0 for verdadeira. 

0 procedimento consiste em considerar classes, segundo as quais a variavel X, 
caracteristica da populagao, pode ser classificada. A variavel X pode ser qualitativa ou 
quantitativa. Neste capitulo estudaremos urn teste no qual as probabilidades da v.a. X 
pertencer a cada uma das classes sao especificadas. A estatistica usada sera (14.1). 

Exemplo 14.1. Urn dado e langado 300 vezes, com os resultados dados na Tabela 14.1. 
Por enquanto, considere somente a I inha correspondente as frequencias observadas. 
Com os resultados observados, queremos saber se o dado e "honesto", isto e, se a proba- 
bilidade de ocorrencia de qualquer face e 1/6. Ou seja, queremos testar a hi potese 

H 0 : pj = p 2 = ... = p 6 = 1/6, 

onde p i = P (face i), i = 1, 2, ..., 6. Isso equivale a dizer que P 0 segue uma distribuigao 
uniforme discreta. 


Tabela 14.1: Resultados do lanpamento de um dado 300 vezes. 


Ocorrencia (i) 

1 

2 

3 

4 

5 

6 

Total 

Freq. Observada (n.) 

43 

49 

56 

45 

66 

41 

300 

Freq. Esperada (n*) 

50 

50 

50 

50 

50 

50 

300 


2. Testes de Homogeneidade 
Considere o seguinte exemplo. 

Exemplo 14.2. Uma prova basica de Estatistica foi aplicada a 100 alunos de Ciencias 
H umanas e a 100 alunos de C iencias B iologicas. A s notas sao classificadas segundo os graus 
A, B, C, D e E (onde D significa queo aluno nao recebecreditose E indica que o aluno foi 
reprovado). Os resultados estao na Tabela 14.2. 


Tabela 14.2: Resultados da aplicapao de uma prova de Estatistica a 100 alunos de Ciencias 
Humanas e 1OO alunos de Biologia. 


Aluno 

Grau 

Total 







de 

A 

B 

C 

D 

E 


C. Humanas 

15 

20 

30 

20 

15 

100 

C. Biologicas 

8 

23 

18 

34 

17 

100 

Total 

23 

43 

48 

54 

32 

200 


Queremos testar se as distributes das notas, para as diversas classes, sao as mesmas para 
os dois grupos de alunos. Esse teste pode ser estendido para o caso de tres ou mais populates. 
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Testes desse tipo ja foram vistos no Capitulo 13, onde queriamos testar a hipotese 
(13.1). Estudamos la dois testes, o t de Student e o de Wilcoxon. Para esses testes, supomos 
ou que as populates sejam normals ou, entao, preferencialmente, que tenham distribui- 
goes continuas (nao necessariamente normals). Mas, de qualquer modo, testavamos sepa- 
radamente se as duas populates diferiam em localizagao ou escala. No caso presente 
iremos apresentar urn teste baseado na estatistica (14.1), que contempla alternativas gerais; 
por exemplo, as populates podem diferir-se em localizagao e escala. 

Novamente, para efetuar o teste, consideramos amostras das duas populagoes, P 2 e 
P 2 , e classificamos os seus elementos de acordo com certo numero de categorias para 
as duas variaveis caracterfsticas de P 2 e P 2 . 

3. Testes de Independence 

Vimos, no Capitulo 4, a importance de quantificar o grau de associagao entre duas 
variaveis, usando a estatistica (14.1). Porem, essa quantificagao so tern sentido se as variaveis 
nao forem independentes. 0 teste que apresentaremos aqui supoe a existence de 
duas v.a.'s X e Y, e os valores de amostras delas sao classificados segundo categorias, 
obtendo-se uma tabela de dupla entrada. Queremos testar a hi potese que X e Y sao 
independentes. 

Exemplo 14.3. Uma companhia de seguros analisou a frequence com que 2.000 segurados 
(1.000 homens e 1.000 mulheres) usaram hospitais. Os resultados estao na Tabela 14.3. 
A hipotese a testar e que o uso de hospital independe do sexo do segurado (veja o Problema 6 
do Capitulo 4). 


Tabela 14.3: Frequencies com que 2.000 segurados usaram hospital. 



Homens 

Mulheres 

Usaram hospital 

100 

150 

Nao usaram hospital 

900 

850 


4. Teste para o Coeficiente de Correlagao 

Quando se investiga associagao entre duas variaveis quantitativas, o artiffcio de 
agrupar os dados em intervalos (classes) reduz a variavel quantitativa a urn caso parti¬ 
cular de variavel qualitativa, assim, poderfamos usar as mesmas tecnicas da analise 
desse ultimo tipo de variavel. Mas esse procedimento pode nao ser o melhor possfvel, 
e o uso do coeficiente de correlagao como medida de associagao entre variaveis quan¬ 
titativas e o caminho mais apropriado. Na segao 14.5 voltaremos a tratar desse tema 
agora sob o ponto de vista da inferencia. 

Para finalizar esta segao, notamos que os testes descritos nos itens (l)-(3) sao todos 
baseados na distribuigao qui-quadrado e sao parte dos chamados testes nao-parametricos. 
Para essa classe de testes nao se supoe que a populagao (ou populagoes) siga algum modelo 
particular, como fizemos para alguns dos testes dos Capftulos 12 e 13. Na segao 14.6 
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introduzimos, por meio de um exemplo, um outro tipo de teste nao-parametrico de ade¬ 
rencia, baseado na comparagao da distribuigao empirica dos dados com a distribuigao 
hipotetizada para a populagao. 


14.2 Testes de Aderencia 

Retomemos o Exemplo 14.1. 


Exemplo 14.1. (continuagao) Para o uso da formula (14.1) necessitamos conhecer os 
valores esperados do langamento do dado, sob a hipotese de ele ser "honesto", ou 
seja, sob a hipotese H 0 formulada anteriormente. Observamos da Tabela 14.1 que o 
dado foi langado 300 vezes. Entao, se H 0 for verdadeira, esperaremos 50 casos em 
cada casela, como mostrado na tabela. Na formula (14.1) e na tabela denotamos as 
frequencias observadas por n i e as esperadas por n*. Usando a formula podemos cal- 
cular o qui-quadrado observado, 


, 2 _ (43 - 50) 2 (41 - 50) 2 

'° bs 50 50 


376 

50 


= 8,56. 


Como veremos a seguir, essa estatfstica, sob H 0 , segue uma distribuigao qui- 
quadrado, com o numero de graus de liberdade apropriado. Imagine que queiramos 
simular uma amostra de 300 langamentos de um dado. O problema seria o de preen- 
cher as seis caselas correspondentes as frequencias n i( na Tabela 14.1, com a restrigao 
de a soma ser 300. E facil ver que so podemos preencher "livremente" cinco das 
caselas, uma delas (qualquer) resultara como a diferenga entre 300 e a soma dessas 
cinco. Temos, entao, cinco "graus de liberdade" para preencher as caselas. 

Consultando a Tabela IV, com a = 0,05 e 5 graus de liberdade, encontramos o 
valor critico xl = 11,070, que e maior do que X 2 0bs = 8,56, logo, nao rejeitamos H 0 . Ou 
seja, ha evidences de que o dado seja honesto. 

O problema aqui pode ser caracterizado da seguinte maneira. Temos uma amostra 
X x , ..., X n da v.a. X que caracteriza a populagao P e queremos testar a hipotese 

H 0 : P = P 0 (14.2) 

onde P 0 tern uma distribuigao de probabilidades especificada. M uitas vezes, como e o 
caso de variaveis qualitativas e variaveis discretas, a variavel X de interesse da popu¬ 
lagao e categorizada em classes A x , A 2 , ..., A s e temos as probabilidades Pj = P (X e A i ), 
i = 1, 2,..., s. Entao, a hipotese H 0 pode ser formulada de modo equivalente como 

H 0 1 Pi “ P10' P 2 - P 2 0' ■■■' Ps “ PsO' 

onde p i0 sao os valores especificados pela hipotese nula, ou seja, sao as probabilidades co- 
nhecidas que determinam P 0 . 

No caso de uma v.a. discreta X, assumindo os valores i = 0, 1, 2, ..., temos 
que p ; = P(X = i), i 3* 0; X pode ser uma v.a. binomial, ou Poisson ou ainda 
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geometrica, por exemplo. Poderemos querer testar se a amostra observada vem 
de uma dessas distribuigoes. 

Se X for uma v.a. contfnua, poderemos dividir o seu domfnio de variagao em inter¬ 
val os (de mesma amplitude, por exemplo) e construir a distribuigao de frequencias 
correspondente, como fizemos no Capftulo 2. Por exemplo, poderemos querer testar 
se nossa amostra foi escolhida de uma populagao com distribuigao normal (media e 
variancia especificadas). 

Em todas as situagoes obtemos uma tabela de contingency 1 x s, como aquela 
formada pela primeira linha (frequencias observadas) da Tabela 14.4. 


Tabela 14.4: Frequencias observadas e esperadas numa tabela 1 xs. 


Categoria 

A, 

a 2 


A s 

Total 

Freq. Observadas 

Oi 

0 2 


o s 

n 

Freq. Esperadas 

Ex 

E 2 


E s 

n 


Incidentalmente, o modelo probabiIfstico apropriado para essa situagao e o modelo 
multinomial. Veja o Problema 27. 

Vamos escrever a estatfstica (14.1) na forma 


Z 2 =- 


i =1 


(Oi- E, 

E 


(14.3) 


onde CT representa o valor efetivamente observado para a classe A j( e E representa o 
valor esperado, sob a hipotese H 0 , para a classe A i . Como temos n observagoes, os valores 
esperados sob H 0 sao dados por 


E, = np i0 , i = 1, 2.s. (14.4) 

Se a hipotese H 0 for verdadeira, pode-se demonstrar que X 2 tern uma distribuigao 
qui-quadrado com (s - 1) graus de liberdade. 

A hipotese alternativa a H 0 e que pelo menos uma das igualdades nao valha, ou seja, 


H l : Pj =£ p j0 , para pelo menos urn j. (14.5) 

Rejeitaremos H 0 se o valor da estatfstica (14.3) for grande, no sentido que pode- 
mos encontrar urn valor c da Tabela IV, tal que P(Z 2 (s - 1) > c) = a, para o nfvel de 
significance afixado. Temos, pois, urn teste unilateral a direita. 


Exemplo 14.4. Urn estudo sobre acidentes de trabalho numa industria revelou que, em 
150 acidentes, obtemos a distribuigao da Tabela 14.5. 
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Tabela 14.5: Acidentes de trabalho numa industria nos dias da semana. 


Dia 

Seg. 

Ter^a 

Quarta 

Quinta 

Sexta 

Total 

0; 

32 

40 

20 

25 

33 

150 

E 

30 

30 

30 

30 

30 

150 

LU 

LU 

1 

o 

0,1333 

3,333 

3,333 

0,833 

0,300 

7,932 


0 objetivo e testar a hipotese que os acidentes ocorrem com igual frequencia nos 
cinco dias da semana. Ou seja, queremos testar 


H 0 : p : = p 2 = ... = p 5 = 1/5, 

H : : Pj A 1/5, para pelo menos urn j. 

Sob a hi potese nula, os valores esperados estao na Tabela 14.5. Por exemplo, 
E : = 150 x 1/5 = 30 etc. 0 btemos 


= (32 

•^obs 


30) 2 


30 


+ ... + i^ 30) 2 = 7,932. 


30 


Fixando-se a = 0,05, temos que o valor critico de uma distribuigao Z 2 (4) e 9,488, 
portanto nao rejeitamos H 0 . O valor-p do teste e 

a = P U 2 (4) > 7,932) « 0,09552, 

o que nos diz a mesma coisa. 


Exemplo 14.5. Retomemos o Exemplo 6.17, no qual consideramos o ajuste de uma distri¬ 
buigao de Poisson a desintegragao de substancias radioativas. Na Tabela 6.13 tfnhamos as 
informagoes necessarias para calcular (14.3), sendo que n k = 0 k e np k = E k , k = 1, 2, ..., 11. 
Temos, entao, que s = 11 e v = s - 1 = 10 graus de liberdade. O valor observado de (14.3) 
e X 2 = 12,875, e nao rejeitamos H 0 , no nfvel de significance a = 0,05, pois o valor critico 
obtido da Tabela IV e 18,307. Verifique que o valor-p aqui e a > 0,23. 

Finalmente, vejamos urn exemplo para testar se urn conjunto de dados vem de 
uma populagao normal especificada. 

Exemplo 14.6. Considere os dados abaixo, que supostamente sao uma amostra de 
tamanho n = 30 de uma distribuigao normal, de media /u = 10 e variancia o 2 = 25. Os 
dados ja estao ordenados. 


1,04 

1,73 

3,93 

4,44 

6,37 

6,51 

7,61 

7,64 

8,18 

8,48 

8,57 

8,65 

9,71 

9,87 

9,95 

10,01 

10,52 

10,69 

11,72 

12,17 

12,61 

12,98 

13,03 

13,16 

14,11 

14,60 

14,64 

14,75 

16,68 

22,14 


Vamos classificar esses dados em quatro intervals, delimitados pelos quartis teoricos 
Q(0,25), Q(0,5) e Q(0,75) da N(10,25). Chamando de Z(p) os quantis da N(0,1), temos 














14.2 TESTES DE ADERENCIA 


405 


Q (0,25) = 10 + 5Z( 0,25) = 10 + 5(-0,6745) = 6,6275, 
Q (0,5) = 10 + 5Z(0,5) = 10 + 5(0) = 10, 

Q (0,75) = 10 + 5Z( 0,75) = 10 + 5(0,6745) = 13,3725. 
A hipotese nula a ser testada e 


H 0 : P = N (10,25). 

Tabela 14.6: Valores observados e esperados para dados, sob suposipao de normalidade. 


Classes 

Ar 

(-oo; 6,6275] 

a 2 

(6,6275; TO] 

a 3 

(TO; 13,3725] 

a 4 

(13,3725; +oo) 

Total 

o, 

4 

11 

9 

6 

30 

E, 

7,5 

7,5 

7,5 

7,5 

30 


Na Tabela 14.6 temos os valores observados em cada intervalo e os valores espe¬ 
rados, sob H 0 , ou seja, cada intervalo deve conter um quarto das observagoes, ou, 
ainda, as probabilidades das classes sao dadas por 

Pi = P (X < 6,6275) = 0,25, 

p 2 = P (6,6275 < X < 10) = 0,25 etc. 

O valor da estatistica (14.3) eX 2 = 3,87, que deve ser comparado com o valor critico de 
uma X 2 (3), para dado nfvel de significance. Se a = 0,05, esse valor e 7,815, que nos leva 
a aceitar H 0 , ou seja, podemos considerar que temos uma amostra de uma normal com 
media 10 e variancia 25. O valor-p do teste e maior do que 0,25. Verifique. Um grafico dos 
quantis dos dados contra os quantis de uma normal esta na Figura 14.4. Os pontos deveriam 
estar todos proximos de uma reta. Isso acontece para a maioria dos pontos, mas ha pontos 
distantes da reta e, em particular, um ponto atipico no canto superior direito (o valor 22,14). 
Um histograma e um box plot dos dados estao mostrados na Figura 14.1. 


Figura 14.1: Histograma e box plot para os dados do Exemplo 14.6. SPlus. 
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emas 


1. Calcule o valor-p para o Exemplo 14.1. 

2. Calcule os valores-p para os Exemplos 14.5 e 14.6. 

3. Um modelo genetico especifica que animais de certa populagao devam estar classificados 
em quatro categorias, com probabilidades p 2 = 0,656, p 2 = 0,093, p 3 = 0,093, 
p 4 = 0,158. Dentre 197 animais, obtivemos as seguintes frequencies observadas: 
0 j = 125, 0 2 = 18, 0 3 = 20, 0 4 = 34. Teste se esses dados estao de acordo com o modelo 
genetico postulado. 

4. Teste se os dados abaixo sao observaqoes de uma distribuiqao normal com media 30 e 
desvio padrao 10. 


15,9 

16,9 

18,3 

18,5 

19,0 

19,5 

21,8 

23,0 

23,8 

24,5 

26,1 

26,9 

32,3 

35,0 

36,1 

36,5 

37,2 

38,5 

40,9 

44,2 


5. Um dado foi lanqado 1.000 vezes, com os seguintes resultados: 


Ocorrencia 

1 

2 

3 

4 

5 

6 

Freqijencia 

158 

186 

179 

161 

141 

175 


Teste a hipotese que o dado e balanceado. 


14.3 Testes de Homogeneidade 

Vimos no capftulo anterior como testar a hipotese (13.1) de que as duas popula¬ 
tes Pj e P 2 tinham a mesma distribuigao. Os testes utilizados foram baseados na 
distribuigao t de Student, que assume normalidade das populates, ou o teste nao- 
parametrico de Wilcoxon (M ann-Whitney), que nao faz essa suposigao, mas fica bem 
mais facil se as distributes forem continuas. 

0 teste que apresentaremos agora pode ser usado para dados discretos ou contfnu- 
os e serve para testar H 0 dada por (13.1) contra alternativas gerais, e nao somente para 
testar diferengas de local izagao. 

Exemplo 14.2 (continuagao) Considerando P 2 como a populagao de alunos de Ciencias 
Humanas e P 2 a dos alunos de Ciencias Biologicas, nosso objetivo e testar a hipotese 

H 0 :Pi = P 2 . 

usando os resultados amostrais da Tabela 14.2. Para isso, precisamos encontrar os 
valores esperados n‘, para aplicar a formula (14.1). 

Inicialmente, observemos que se H 0 for verdadeira, a distribuigao de probabilidades 
nas duas linhas deveria ser a mesma, e equivaleria a ter uma unica populagao P. A ultima 
linha (de totais) da Tabela 14.2 representaria uma amostra de 200 alunos dessa unica 
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populagao. A Tabela 14.7 apresenta as estimativas das proporgoes, em cada grau, para 
P 1( P 2 e P. Sendo H 0 verdadeira, deverfamos esperar para P 2 e P 2 as mesmas proporgoes 
observadas para P, ou valores aproximadamente iguais. Ou, ainda, todas as linhas dessa 
tabela deveriam ser iguais entre si, e iguais a linha de totais, o que aparentemente nao 
ocorre. A partir dessas porcentagens podemos obter as frequencias absolutas correspon- 
dentes (ou valores esperados) se H 0 for verdadeira. Obtemos, entao, a Tabela 14.8. 


Tabela 14.7: Porcentagens estimadas das classes para cada populapao. 


Aluno 

Grau 

Total 

de 

A 

B 

C 

D 

E 

C. Humanas 

15 

20 

30 

20 

15 

100 

C. Biologicas 

8 

23 

18 

34 

17 

100 

Total 

11,5 

21,5 

24 

27 

16 

100 


Tabela 14.8: Frequencias absolutas sob H 0 (n*,). 


Aluno 

Grau 

Total 

de 

A 

B 

C 

D 

E 

C. Humanas 

11,5 

21,5 

24 

27 

16 

100 

C. Biologicas 

11,5 

21,5 

24 

27 

16 

100 

Total 

23 

43 

48 

54 

32 

200 


Desse modo, encontramos os valores esperados n*, que podem ser substitufdos 
em (14.1), obtendo-se 


*obs 


(15- 11,5) 2 + + (15 - 16) 2 + (8 - 11,5) 2 + + (17- 16) 2 = g Q9 

11,5 16 11,5 16 


Novamente, para consultar a tabela precisamos determinar os graus de liberdade, e va- 
mos usar o mesmo argumento anterior. Quantas caselas poderiamos preencher livremente 
em uma simulagao, sendo que os totais marginais sao conhecidos? Observando a Tabela 14.9, 
conclufmos que basta preencher apenas quatro caselas, as seis restantes sao encontradas por 
diferengas. Como exemplo, preenchemos quatro caselas com cfrculos; as demais (sinais de 
"mais") podem ser obtidas por diferengas a partir dos totais de linhas ou colunas. 


Tabela 14.9: Determinapao do numero de graus de liberdade. 


Aluno 

de 

Grau 

Total 

A 

B 

C 

D 

E 

C. Humanas 

C. Biologicas 

o 

+ 

+ 

o 

o 

+ 

+ 

o 

+ 

+ 

100 

100 

Total 

23 

43 

48 

54 

32 

200 
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Da Tabela IV, com a = 0,05 e 4 graus de liberdade encontramos x\ = 9,488, o que leva 
a nao-rejeigao de H 0 , ou seja, a distribuigao das notas e a mesma para as duas populates. 
Observe que os valores esperados na Tabela 14.8 podem ser obtidos de n* = (n i n Jin. 

Exemplo 14.7 Consideremos, novamente, o Exemplo 13.9 e verifiquemos quantos 
elementos de cada amostra caem nas seguintes classes de resistencia a remogao: (0,4; 
1,0], (1,0; 1,6], (1,6; 2,2], (2,2; 2,8], Obtemos a Tabela 14.10, com os valores espera¬ 
dos entre parenteses. 


Tabela 14.10: Valores observados para amostras do Exemplo 13.12. 


Populates 

(0,4; 1,0] 

(1,0; 1,6] 

(1,6; 2,2] 

(2,2; 2,8] 

Total 

P j(T) 

29(33) 

60(52) 

9(11) 

2(4) 

100 

P 2 (C) 

37(33) 

44(52) 

13(11) 

6(4) 

100 

Total 

66 

104 

22 

8 

200 


Utilizando (14.1) obtemos ZL = 6,1585. Como temos s = 4, rejeitaremos H 0 , se 
6,1585 > c, onde ceo valor de uma v.a. com distribuigao Z 2 (3), tal que P(Z 2 (3) > c) = 
a. Com a = 0,05, obtemos c = 7,815 da Tabela IV, logo nao rejeitamos H 0 no nfvel a. 

Esse teste pode ser estendido para o caso de termos r populagoes P 1( ..., P r e que- 
rermos testar a hipotese 


H 0 : P 1 = P 2 = ... =P r (14.6) 

contra a alternativa em que pelo menos duas sao distintas. Obteremos uma tabela de 
dupla entrada r x s. Designando-se os tamanhos das amostras dessas populagoes por n 1( 
..., n r , com n : + ... + n r = N, e por n o numero de elementos da amostra de P. t classificados 
na categoria j, teremos a situagao aa Tabela 4.11. A hi potese a ser testada aqui e 

H 0 ■ P11 “ P 2 1 - ■■■ - Pri 


Pis = P 2S = ■ = Prs 

Nesse caso, a estatfstica (14.1) tern distribuigao Z 2 (v), onde o numero de graus de 
liberdade v e dado por v = (r - l)(s - 1). O argumento para obter esse numero e o 
mesmo usado para o Exemplo 14.2. 


6. Suponha que tenhamos razoes para crer que as notas obtidas por estudantes de escolas 
publicas sejam menores que as notas obtidas por estudantes de escolas particulares, ao 
tomarem o exame vestibular para uma Universidade. Para testar essa hipotese, foram 
selecionadas duas amostras de estudantes que prestaram o vestibular, suas medias gerais 
foram anotadas e obteve-se a tabela a seguir. 
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Escola 

(0; 2,5] 

(2,5; 5,0] 

(5,0; 7,5] 

(7,5; 10,0] 

Total 

Publica 

15 

22 

18 

3 

58 

Particular 

6 

10 

20 

6 

42 

Total 

21 

32 

38 

9 

100 


Teste a hipotese que as duas populates sao homogeneas, para o nivel de significance 
a = 0,01. Obtenha o valor-p a. 

7. Cem estudantes foram divididos em duas classes de 50 cada e o objetivo era testar urn 
novo metodo de ensinar Probabilidades. Uma classe recebeu um metodo tradicional e a 
outra, o novo metodo. Apos o curso, foi pedido que os estudantes resolvessem um proble- 
ma tipico de Probabilidades. Os resultados foram os seguintes: 



Exerdcio correto 

Exerdcio errado 

Metodo convencional 


33 

17 

Metodo novo 


37 

13 

Ha razoes para acreditar que o novo 

metodo e superior? 



8. Duas novas drogas vao sertestadas em 160 pessoas portadoras de rinite alergica. Metade 
das pessoas recebe a droga A e a outra metade recebe a droga B. Obtem-se a tabela abaixo. 
Teste a hipotese de que as duas drogas sao igualmente eficazes para tratar a doenqa. 



Eficaz 

Nao Eficaz 

Droga A 

55 

25 

Droga B 

48 

32 


9. Um produto novo e lanqado por uma empresa, e, para verificar a sua aceitaqao, dois 
grupos de pessoas de duas cidades sao consultados. De 100 pessoas da cidade A, 32 
gostaram do produto e, de 50 pessoas da cidade B, 12 gostaram do produto. Ha eviden- 
cias que o produto seja igualmente aceito nas duas cidades? 

14.4 Testes de Independence 

Retomemos o Exemplo 4.3, para efeito de iIustragao. 

Exemplo 14.8. Naquele exemplo, o que se queria era verificar se a criagao de determi- 
nado tipo de cooperativa estava associada ao fator regional. Os dados das Tabelas 4.8 
e 4.9 estao reproduzidas na Tabela 14.11. 

Como temos tres linhas e quatro colunas, o numero de graus de liberdade da estatfs- 
tica e v = (3 - 1)(4 - 1) = 6. Fixando-se a = 0,05, devemos procurar um valor c, tal que 
P(Z 2 (6) > c) = 0,05, e da Tabela IV obtemos c = 12,592. Portanto a regiao critica do teste 
e RC = [12,592; +«[■ 
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Vimos na segao 4.3 como construir os valores esperados, sob a hipotese de inde¬ 
pendence (ver Tabela 4.9), que estao entre parenteses na Tabela 14.11. 0 valor obser- 
vado da estatistica qui-quadrado encontrado foi zL = 171,76. Como esse valor per- 
tence a regiao crftica, rejeitamos H 0 , ou seja, ha uma forte dependence entre os fatores 
"tipo de cooperativa" e "regiao de localizagao". 

0 nfvel descritivo do teste e a = P(Z 2 (6) > 171,761 H 0 e verdadeira) < 0,1%, ou seja, 
temos uma forte indicagao que H 0 deve ser rejeitada. 

A formalizagao dos testes de independence passa a ser como segue. Chamemos 
de p. a probabilidade de urn individuo ser classificado nas categorias i, i = 1, ..., r e j, 
j =1,..., s, simultaneamente; denotemospor p : ep es probabilidades marginais. A hi potese 
de independence pode ser escrita na forma 

H 0 : p y = p,.p.j, para todo par (i, j), 

Hj : p y * p, Pj, para algum par (i, j). 

Lembremos que p, = Ej-iPy e p.j = X'.iPj. 

Tabela 14.11: Valores observados e esperados para o Exemplo 14.9. 


Estado 

Consumidor 

Produtor 

Escola 

Outras 

Total 

Sao Paulo 

214(157) 

237(269) 

78(143) 

119(79) 

648 

Parana 

51(73) 

102(124) 

126(67) 

22(37) 

301 

Rio G. Sul 

111(146) 

304(250) 

139(133) 

48(73) 

602 

Total 

376 

643 

343 

189 

1.551 


A estatistica a usar e novamente (14.1), que tera, sob a hipotese H 0 , uma distribui¬ 
gao qui-quadrado com v = (r - l)(s - 1) graus de liberdade. Rejeitaremos H 0 se o valor 
observado da estatistica for maior do que urn valor critico, dado pela Tabela IV, fixado 
urn valor do nivel de significance a. 

Dado que a distribuigao de qui-quadrado, nesse caso, e uma distribuigao aproxi- 
mada, precisamos tomar certos cuidados na sua aplicagao. Urn deles e garantir que 
todos os valores esperados das caselas nao sejam inferiores a cinco. 


10. Para o Problema 16 do Capitulo 4, teste formalmente se a opiniao dos habitantes depende 
do local da residencia. 

11. Teste se o uso de hospital independe do sexo para o Exemplo 14.3. 

12. Para o Problema 22 do Capitulo 4, teste se existe dependencia entre os fatores: tendencia 
dos alunos a prosseguir os estudos e classe social dos entrevistados. 

13. Investigando a "fidelidade" de consumidores de um produto, obteve-se uma amostra de 
200 homens e 200 mulheres. Foram classificados como tendo alto grau de fidelidade 100 
homens e 120 mulheres. Os dados fornecem evidencia de possfveis diferengas de grau de 
fidelidade entre sexos? 
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14. Uma pesquisa sobre a qualidade de certo produto foi realizada enviando-se questionarios 
a donas-de-casa pelo correio. Aventando-se a possibilidade de que os respondentes 
voluntaries tenham urn particular vies de respostas, fizeram-se mais duas tentativas com 
os nao-respondentes. Os resultados estao indicados abaixo. Voce acha que existe relaqao 
entre a resposta e o numero de tentativas? 


Opiniao sobre 
o produto 

N- de donas-de-casa 

1 - tentativa 

2- tentativa 

3 s tentativa 

Excelente 

62 

36 

12 

Satisfatorio 

84 

42 

14 

Insatisfatorio 

24 

22 

24 


14.5 Teste Para o Coeficiente de Correlacao 

0 teste apresentado na segao anterior e adequado para averigiiar a independence 
de duas variaveis qualitativas. Vimos, na segao 4.5, que para variaveis quantitativas o 
coeficiente de correlagao e uma medida de associagao mais adequada. Usualmente, 
podemos determinar o coeficiente de correlagao para uma amostra, pois desconhece- 
mos esse valor na populagao. Uma populagao que tenha duas variaveis nao-correla- 
cionadas pode produzir uma amostra com coeficiente de correlagao diferente de zero. 
Para testar se a amostra foi colhida de uma populagao para a qual o coeficiente de 
correlagao entre duas variaveis e nulo, precisamos obter a distribuigao amostral da 
estatistica r, definida em (4.7). Esquematicamente, temos a situagao da Figura 14.2. 


Figura 14.2: Coeficiente de correlacao para populaqao e amostra. 



Seja p = p(X, Y) o verdadeiro coeficiente de correlagao populacional desconhecido. 
Vamos apresentar a distribuigao amostral de r para duas condigoes da populagao: p = 0 e 
p A 0. Em ambos os casos, a distribuigao amostral exige que a distribuigao da v.a. (X, Y) na 
populagao seja normal bidimensional, como definida no Capftulo 8. 

Exemplo 14.8. Teste para p = p 0 . Durante muito tempo, o coeficiente de correlagao 
entre a nota final num curso de treinamento de operarios e sua produtividade, apos 
seis meses do curso, resultou ser 0,50. Foram introduzidas modificagoes no curso, 
com o intuito de aumentar a correlagao. Se o coeficiente de correlagao de uma amostra 
de 28 operarios submetidos ao novo curso foi 0,65, voce diria que os objetivos da 
modificagao foram atingidos? 
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A. Hipoteses 

X: resultado no teste; Y: produtividade; 
H 0 : p(X, Y) =0,50; 

H j : p(X, Y) >0,50; 


B. Estatistica do Teste 

R. Fisher sugeriu a seguinte transformagao para a estatistica r: 

^T^T^T' (14,7) 


que tem uma distribuigao muito proxima de uma normal N (p, o]), com 


^ 2 1 - p 0 



1 

n - 3 ’ 


(14.8) 


sendo n o tamanho da amostra (X 1( Yj), ..., (X n , Y n ) e p 0 o valor do parametro 
populacional. A aproximagao nao vale para p = -1 ou p = 1. Alem disso, para p = 0, 
temos urn teste exato, que sera visto no proximo exemplo. No nosso caso, sob a hipo- 
tese H 0 , £ tera distribuigao aproximadamente normal, com 




1 

2 




1 + 0,5 
1 - 0,5 


= 0,549, 



= 0,04. 


C. Regiao Critica 

Como a hipotese alternativa sugere uma regiao critica unilateral a direita, e como 
£ ~ N (0,549; 0,04), vem que a RC para £, no nivel de significancia a = 0,05, sera 

RC = {£ : £ > 0,549 + 1,654^004} = {£ : ^ > 0,878}. 


D. Resultado da Amostra 


Como r = 0,65, vem que 



1 + 0,65 
1 - 0,65 


= 0,774. 


E. Conclusao 

Como <^ 0 £ RC, aceitamos H 0 , ou seja, nao existe evidencia de que o coeficiente de 
correlagao tenha aumentado. 


Exemplo 14.9. Teste para p = 0. Queremos testar se existe ou nao correlagao entre o 
numero de clientes e os anos de experience de agentes de seguros. Sorteamos cinco 
agentes e observamos as duas variaveis. Os dados estao na Tabela 14.12. Qual seria a 
conclusao, baseando-se nesses dados? 


Tabela 14.12: Anos de experienced para cinco agentes de seguros. 


Agente 

A 

B 

C 

D 

E 

Anos de Experiencia 

2 

4 

5 

6 

8 

Numero de Clientes 

48 

56 

64 

60 

72 
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A. Hipoteses 
H 0 :p = 0 


H i: P * 0 

B. Estatistica do Teste 

Para amostras retiradas de uma populagao para a qual p = 0, pode-se provar que 
a estatistica 



(14.9) 


tem distribuigao t de Student com n - 2 graus de liberdade. No nosso exemplo, a 
estatistica tera distribuigao t(3). 

C. Regiao Critica 

Por ser um teste bilateral, consultando a Tabela V, teremos para a = 0,10, 


RC = (-oo, -2,353] U [2,353, 4«). 


D. Resultado da Amostra 

Calculando o coeficiente de correlagao para os dados acima, obtemos r = 0,95; logo, 



E. Conclusao 

Como t 0 e RC, rejeitamos H 0 , isto e, existe dependence entre anos de experience 
e numeros de clientes. 

Nesse caso seria conveniente construir um intervalo de confianga para p. Observe 
que, se p 0, devemos usar a estatistica £ de (14.7). Portanto, se tomarmos por exemplo 
7 = 0,95, devemos procurar dois numeros ^ e <^ 2 para £ tais que 


P (£ < 5 < y = 0,95. 
Como £ ~ N (n , 1/2), podemos escrever 
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logo 


Como 


1C in - 0,95) = 1,832 ± 1,384 = (0,448; 3,216). 


H £ = i 1 +P 


« 2 1 - p' 

e uma expressao semelhante vale para os extremos do intervalo, podemos obter as 
operagoes inversas para encontrar os extremos do intervalo para p. Assim, de 


obtemos 


e de 


obtemos 


0,448 = 

2 1 - r 


p0,896 1 

r = JL_ — k = 0,420, 


2»0,896 


+ 1 


3,216 = 

2 1 - r 


p6,432 1 

r = —- = 0,997. 


-,6,432 


+ 1 


Finalmente, obtemos 


IC(p; 0,95) = (0,420; 0,997). 


15. Estamos estudando se ha ou nao correlagao entre as notas de diversas disciplines de um 
curso de mestrado. Analisando uma amostra de 12 alunos, encontrou-se uma correlagao 
de 0,60 entre as disciplines de Estatfstica e Metodologia da Pesquisa. Teste a hipotese de 
nao haver correlagao entre as disciplines. Caso a rejeite, de um intervalo de confianga 
para o coeficiente de correlagao populacional. 

16. Existe relagao entre o volume de uma cargo e o tempo gasto para acondiciona-la? Para 
investigar esse fato, sortearam-se nove pedidos de mercadorias, medindo-se as duas varia- 
veis de interesse. Com os dados obtidos abaixo, quais seriam as suas conclusoes? 


Tempo 

84 

108 

110 

133 

144 

152 

180 

196 

231 

Volume 

48 

72 

63 

82 

88 

109 

112 

123 

140 


14.6 Outro Teste de Aderencia 

Na segao 14.2 estudamos, por meio da distribuigao qui-quadrado, como testar a hipo¬ 
tese de que um conjunto de dados provem de uma distribuigao especificada. Nesta segao 
vamos introduzir uma outra maneira de testar a hipotese (14.2), por meio de um exemplo. 






















14.6 OUTRO TESTE DE ADERENCIA 


415 


No Problema 47 do Capftulo 3 vimos que um estimador da verdadeira fungao densida- 
de de uma populagao e o histograma. Em particular, foi apresentada uma maneira de obter 
o intervalo de classe, baseada numa "distancia" entre o histograma e a fungao densidade. 

Suponha que tenhamos uma amostra X x , X n de uma populagao P, sobre a qual 
estamos considerando uma v.a. X. Designemos por f(x) a fungao densidade e por F(x) 
a fungao de distribuigao acumulada (f.d.a.) de X. Estimar f(x) e equivalente a estimar 
F(x). Nosso objetivo e testar se a amostra observada veio de uma distribuigao de pro- 
babilidades especificada, e (14.2) e equivalente a 

H 0 : F (x) = F 0 (x), para todo x. 

Vamos considerar a fungao de distribuigao empfrica (f.d.e.), F e (x), definida no 
problema 17 do Capftulo 2, como um estimador de F(x), para todo valor x real. A 
situagao e a da Figura 14.3. 


Figura 14.3: Graficosda f.d.a. e f.d.e. e distancias c( = F (x (i) ) - F e (x (il ). 



Se F e (x) for um bom estimador de F (x) as duas curvas devem estar proximas. Como 
em todo teste de hipoteses, para testar a hipotese acima, teremos que definir o que 
significa "proximo". Ha varias maneiras de medir a "distancia" entre F(x) e F e (x). Os 
probabilistas russos Kolmogorov e Smirnov propuseram uma estatfstica para o teste, 
obtida tomando o maximo dos valores absolutos das diferengas F(x j ) - F e (x i ), i = 1, ..., n. 
Nessas diferengas, calculadas nos valores amostrais, F (x.) e o valor calculado sob a 
hipotese nula H 0 , ou seja, e o valor que a f.d.a. hipotetizada toma no ponto x i . Formal- 
mente, a estatfstica a ser usada no teste e 

D = max IF(x) - F (x )|. 

1« i ^ n 1 e 1 


(14.10) 
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0 valor encontrado deve ser comparado com um valor crftico, obtido na Tabela X, 
fixado um nfvel de significance do teste. Se D for maior que o valor tabelado, rejeitamos H 0 . 

Retomemos o Exemplo 14.6, onde querfamos testar se 30 valores observados pro- 
vinham de uma distribuigao normal, com media 10 e desvio padrao 5. 


Exemplo 14.6. (continuagao) A hipotese a ser testada pode ser escrita na forma 

H 0 : F (x) = F 0 (x), Vx, 

H j : F (x) F 0 (x), para algum x, 

onde F 0 (x) e a f.d.a. da v.a. X ~ N (10,25). 

Lembremos que a f.d.e. F e (x) e uma fungao em "escada", dando um salto igual a 1/30 
em cada valor x (i) . 

Na Tabela 14.13 temos os calculos necessarios. Vemos, por exemplo: 

F 0 ( 1,04) =P(X s: 1,04) = p(z ^ 1,04 ~ 10 ) = P (Z -1,792) = 0,0366, 

F e ( 1,04) = 1/30 = 0,0333 etc. 


Tabela 14.13: Dados para oTestede Kolmogorov-Smirnovdo Exemplo 14.2. 


x i 

F (x,) 

F e (Xj ) 

|F(x i )-F e (x i )| 

Xj 

F (x : ) 

F e ( Xj ) 

IF (x i ) - F e (x.)| 

1,04 

0,0366 

0,0333 

0,00323 

10,01 

0,5008 

0,5333 

0,03253 

1,73 

0,0491 

0,0667 

0,01760 

10,52 

0,5414 

0,5667 

0,02525 

3,93 

0,1124 

0,1000 

0,01237 

10,69 

0,5549 

0,6000 

0,04512 

4,44 

0,1331 

0,1333 

0,00026 

11,72 

0,6346 

0,6333 

0,00124 

6,37 

0,2340 

0,1667 

0,06725 

12,17 

0,6679 

0,6667 

0,00119 

6,51 

0,2426 

0,2000 

0,04259 

12,61 

0,6992 

0,7000 

0,00083 

7,61 

0,3163 

0,2333 

0,08299 

12,98 

0,7244 

0,7333 

0,00892 

7,64 

0,3185 

0,2667 

0,05180 

13,03 

0,7277 

0,7667 

0,03892 

8,18 

0,3579 

0,3000 

0,05793 

13,16 

0,7363 

0,8000 

0,06369 

8,48 

0,3806 

0,3333 

0,04723 

14,11 

0,7945 

0,8333 

0,03887 

8,57 

0,3874 

0,3667 

0,02077 

14,60 

0,8212 

0,8667 

0,04545 

8,65 

0,3936 

0,4000 

0,00642 

14,64 

0,8233 

0,9000 

0,07670 

9,71 

0,4769 

0,4333 

0,04354 

14,75 

0,8289 

0,9333 

0,10439 

9,87 

0,4896 

0,4667 

0,02296 

16,68 

0,9092 

0,9667 

0,05744 

9,95 

0,4960 

0,5000 

0,00399 

22,14 

0,9924 

1,0000 

0,07591 


Os valores de F 0 (x) podem ser obtidos como na segao 7.8, por exemplo, usando o 
comando CDF do M initab. 

Da tabela, vemos que o valor maximo dos valores absolutos das diferengas e 
D =0,104. Da Tabela X, vemos que para a = 0,05, o valor crftico e 0,242, logo aceitamos 
H 0 , ou seja, os dados realmente sao uma amostra de uma distribuigao normal, com n = 10 
e a = 5. 
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Podemos comparar os quantis (empfricos) dos dados com os quantis da normal, 
por meio de urn grafico q x q, com o objetivo de verificar que os pontos se distribuem 
ao redor de uma reta, como na Figura 14.4. 


Figure! 14.4: Quantis da normal padrao contra quantis dos dados. 



14.7 Problemas e Complementos 

17. Teste a independence entre o tipo de atividade e o tipo de propriedade de embarcagoes 
para o Problema 20 do Capitulo 4. 

18. Supoe-se que uma moeda favorega cara, na proporgao de duas caras para tres coroas. 
Para testar tal hipotese, langa-se uma moeda quatro vezes, contando-se o numero de 
caras. Repete-se esse experimento 625 vezes. Os resultados estao na tabela abaixo. Esses 
dados confirmam ou nao a suposigao? 


N s de caras 

0 

1 

2 

3 

4 

Total 

Frequencias 

72 

204 

228 

101 

20 

625 


19. Num laboratorio foi realizada uma pesquisa de mercado em que se estudou a preference 
com relagao a dois adogantes artificial, A e B, obtendo-se os resultados seguintes. 


Sexo 

Preferem A 

Preferem B 

Indecisos 

Feminino 

50 

110 

40 

Masculino 

150 

42 

8 


A distribuigao de preferences pelos dois sexos e a mesma? Calcule o valor-p. 
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20. Prove que (14.3) pode ser escrita na forma 

S 

X 2 = Xo| 2 /Ei - n. 

i=i 

21. Teste, para o nivel de 5%, se existe correlagao ou nao entre o setor primario e o indice de 
analfabetismo, usando a amostra do Problema 11 do Capitulo 4. Caso a resposta seja 
afirmativa, construa um 1C de 95% de confianga para p. 

22. No Problema 28 do Capitulo 4, use as sugestoes dadas para testar a hipotese p - 0. 

23. Suspeita-se que o coeficiente de correlagao entre o salario do marido e o da mulher seja 
de 0,60 ou mais. Para verificartal hipotese, colheu-se uma amostra de 10 casais, obser- 
vando-se o salario de ambos. Veja os resultados no Problema 29 do Capitulo 4. Qual 
seria sua conclusao? 

24. No Problema 26 do Capitulo 4, temos tres variaveis, X, Y e Z, e queremos verificar qual e 
maior, p(X, Y) ou p(X, Z). Verifique se algum dos coeficientes de correlagao pode ser 
considerado como sendo nulo. 

25. Comparagao dos coeficientes de correlagao de duas populagoes. Vamos supor que p l e p 2 
sejam os coeficientes de correlagao de duas populagoes, das quais retiramos duas amostras 
independentes, detamanhos n em, respectivamente. Desse modo, asv.a. 


y 1 „ 1 + r ! 

- L e 

1 2 1 - 



1 + r 2 
1- C 


sao independentes e terao, respectivamente, as distributes 


com 


Zr~ 







1+Pi e 

1- Pi 



1 +P2 

1 - Pi 


Segue-se que a v.a. D =Z 1 - Z 2 tera distribuigao normal, com media 


M d =Mr ju 2 =— 


( l+Pi 
U -Pi 


1 -Pl ) 

1 +pj 


e variancia a D 2 =l/(n - 3) +l/(m - 3). Quando p 2 = p 2 , temos que p D = 0. Esse resultado 
permite testar se dois coeficientes de correlagao sao iguais ou nao. 

26. Deseja-se verificar se os homens e as mulheres reagem do mesmo modo a um pre- 
treinamento que visa prepara-los para realizar certa tarefa. Um grupo de 28 mulheres e 
52 homens sao submetidos ao pre-treinamento e, em seguida, mede-se a correlagao 
entre o resultado no teste do curso e o numero de erros cometidos ao realizar a tarefa. Os 
coeficientes de correlagao observados foram: para as mulheres, - 0,82; para os homens, 
- 0,52. Usando os resultados do problema anterior, qual seria sua conclusao? Interprete o 
significado do coeficiente de correlagao negativo. 
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27. Distribuigao multinomial. Suponha que, quando realizamos um experimento aleatorio, os 
resultados possiveis sao os eventos A i; A s , com probabilidades = P(A^, 
i = 1, s, p = 1. Suponha que repetimos o experimento n vezes e que p^ permanece 
constante em todas as repetigoes. Defina as v.a. X r X s como: 

X ; = numero de vezes que A ; ocorrenas n repetigoes, i = 1.s. 

Entao, temos que 


P(X 1 = n 1 ,X 2 = n 2 .X s = n s ) = 


n r n 2 ! 


■Pi ni P?-.p s " 


com rij + ... + n s = n. Se S = 2 obtemos a distribuigao binomial. Observe que X : +... + 

+ X s = n,logoasv.a.X 1 X s nao sao independentes. Como cada X ; ~ B in(n, p i ), obtemos 

E (X,) = nPi, Var(Xi) =np i (l- p,), i =l,...,s. 

28. Suponha que uma empresa quer saber o efeito de fumar sobre testes respiratorios para seus 
trabalhadores. Suponha que ostrabalhadores sao divididos em tres classes: nunca fumou, 
fumou no passado e fumante, e que dados anteriores mostram que as porcentagens de 
trabalhadores nessastres classes sao, respectivamente: 52%, 12%, 36%. Se deztrabalha¬ 
dores sao selecionados ao acaso, qual a probabilidade de se obter exatamente cinco que 
nunca fumaram, dois que fumaram no passado e tres fumantes atuais? 


29. Teste, para o nivel a = 0,05, que os dados abaixo sao de uma amostra de uma distribui¬ 
gao uniforme no intervalo (0,1). 


0,145 

0,299 

0,516 

0,901 

0,433 

0,430 

0,932 

0,356 

0,178 

0,248 

0,882 

0,125 

0,517 

0,519 

0,251 

0,191 

0,661 

0,321 

0,504 

0,206 

0,224 

0,960 

0,092 

0,179 

0,974 

0,173 

0,413 

0,372 

0,887 

0,275 

0,561 

0,853 

0,527 

0,239 

0,124 

0,060 

0,968 

0,421 

0,041 

0,775 

0,810 

0,603 

0,229 

0,452 

0,874 

0,785 

0,384 

0,064 

0,990 

0,983 


30. Teste, para o nivel a =0,01, se os dados abaixo provem de uma distribuigao exponencial, 
com media 0,5. 


0,378 

0,391 

0,458 

0,063 

0,009 

1,007 

0,470 

0,368 

0,831 

0,387 

0,228 

0,389 

0,627 

0,480 

0,093 

0,123 

0,089 

0,646 

0,093 

0,400 


31. Teste se os dados do CD-Notas sao normais. Use o teste de aderencia e o teste de 
Kolmogorov-Smirnov. 




Capitulo 1 5 


Inferencia para 
Varias Populates 


15.1 Introducao 

Como vimos no Capitulo 1, uma das preocupagoes de um estatistico ao analisar 
um conjunto de dados e criar modelos que explicitem estruturas do fenomeno sob 
observagao, as quais frequentemente estao misturadas com variagoes acidentais ou 
aleatorias. A identificagao dessas estruturas permite conhecer melhor o fenomeno, 
bem como fazer afirmagoes sobre possiveis comportamentos. 

Portanto, uma estrategia conveniente de analise e supor que cada observagao seja 
formada por duas partes, como vimos em (1.1) do Capitulo 1: 

observagao = previsivel + aleatorio. (15.1) 

Aqui, a primeira componente incorpora o conhecimento que o pesquisador tern 
sobre o fenomeno e e usualmente expressa por uma fungao matematica, com parametros 
desconhecidos. A segunda parte, a aleatoria (ou nao previsivel), representa aquilo que 
o pesquisador nao pode controlar e para a qual sao impostas algumas suposigoes, 
como, por exemplo, que ela obedega a algum modelo probabiIfstico especffico, que, 
por sua vez, tambem contem parametros desconhecidos. 

Dentro desse cenario, o trabalho do estatistico passa a ser o de estimar os parametros 
desconhecidos das duas partes do modelo, baseado em amostras observadas. 

Neste capitulo iremos investigar um modelo simples, chamado de andlise de 
varidncia com um fator. No capitulo seguinte iremos estudar o modelo de regressao 
linear simples. As tecnicas de analise de variancia foram desenvolvidas principalmen- 
te pelo estatistico ingles Ronald A. Fisher, a partir de 1918. 0 leitor interessado pode 
consultar os trabalhos pioneiros de Fisher (1935, 1954) ou Peres e Saldiva (1982) para 
mais informagoes sobre esse assunto. 

A situagao geral pode ser descrita como segue. Temos uma populagao P de unidades 
experimentais (individuos, animais, empresas etc.), para a qual temos uma v.a. Y de interesse. 
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Suponha, agora, que possamos classificar as unidades dessa populagao segundo mveis de 
um fator. Por exemplo, o fator pode ser o sexo, com dois nfveis, arbitrariamente denotados 
por I: sexo masculino e 2: sexo feminino. A v.a. Y pode ser a altura de cada individuo. 

Genericamente podemos ter I niveis para esse fator. A populagao fica, entao, divi- 
dida em I subpopulagoes (ou estratos), P v ..., P p cada uma representada por um nivel 
i do fator, i = 1 , 2, ..., I. No exemplo citado terfamos duas subpopulagoes: a dos indivi- 
duos do sexo masculino e a dos individuos do sexo feminino. 

Na Figura 15.1 mostramos graficamente as suposigoes adotadas para o comporta- 
mento da populagao neste modelo. A Figura 15.1 (a) mostra um comportamento mais 
amplo, com distribuigoes distintas para cada subpopulagao. Na Figura 15.1 (b), aparece 
a suposigao mais comum, em que a parte aleatoria segue uma distribuigao normal, 
com a mesma variancia a 2 para todas as subpopulagoes p., i = 1 , 2, ..., /. 


Figura 1 5.1 Formas da distribuigao de / para os diversos nfveis do fator. 
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Para cada nfvel i, observamos a v.a. Y em n. unidades experimentais selecionadas 
ao acaso da subpopulagao correspondente, ou seja, teremos uma amostra (y., .... yj 
dessa subpopulagao. No exemplo citado acima, temos i = 1, 2, ou seja, dois nfveis 
para o fator sexo. Extrafmos uma amostra de tamanho n 1 de pessoas do sexo mas- 
culino, (y n , y ln ), e uma amostra de tamanho n 2 de P 2 . pessoas do sexo feminino, 
(y 2V ..., y 2n ). Essas amostras sao independentes. 

Suponha que E(Y) = pi para a populagao toda, ou seja, a media global da v.a. Y para P. 
Suponha, tambem, que E(Y\P) = pi., i = 1, ..., /, ou seja, as medias da v.a. Y para as 
subpopulagoes sejam pi v ..., pi r No nosso exemplo, ^ e a media das alturas da popula¬ 
gao de todos os individuos, p 1 e a media das alturas dos homens, e/j 2 ea media das 
alturas das mulheres. 

0 objetivo e estimar pi., i = 1, ..., I e testar hipoteses sobre essas medias. Uma 
hipotese de interesse e 

H o-^i = ^2 = -=P i = P ( 1 5 . 2 ) 

contra a alternativa 


H{. pi. * pi, para algum par (/, j). (15.3) 

0 teste acima corresponde a verificar se as duas populates estao dispostas como 
na Figura 15.1 (c), ou seja, os centros das distribuigoes tern a mesma ordenada e estao 
sobre uma reta paralela ao eixo do fator. Isso significa que o fator nao tern influencia sobre 
a media da variavel sob observagao. 

A analise da variancia pode ser pensada como urn metodo para testar a hi potese H 0 
acima, por meio da analise das variances das diversas amostras. Esse metodo estende 
aquele visto no Capitulo 13, onde comparavamos apenas duas medias. A teoria desen- 
volvida naquele capitulo envolvia situagoes mais amplas do que as que serao vistas 
aqui. Sob as mesmas suposigoes os dois metodos sao equivalentes. Porem, nao pode- 
mos usar os metodos do Capitulo 13 para comparar mais do que duas populagoes. 
Poderia ser aventada a possibilidade de testar as hi poteses duas a duas, mas isso traz 
problemas relacionados no nfvel de significance do teste global, ja que efetuaremos 

|y testes parciais. Voltaremos a esse assunto na segao 15.4, 

Urn modelo conveniente para descrever essa situagao e 

y ij = Pi + e.. i = 1, ..., I, j = 1, .... n., (15.4) 

para o qual supomos que e. sao v.a. independentes, de media zero e variancia o], 
desconhecida, por exemplo. f>odemos adicionar a hi potese de que esses "erros" sejam 
normais, ou seja, 

e i} ~ MO, a 2 ), (15.5) 


para i = 1, 2, ..., /, j = 1, 2, ..., n. 
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Logo, alem de estimar n v ■■■> A ; « temos que estimar tambem of. Se (15.4) e (15.5) 
valerem, teremos / subpopulagoes normais N(/u., of), i = 1, 2, ..., /, que tern medias 
diferentes e mesma variancia. A Figura 15.1 (b) ilustra essa situagao, com 7 = 4. 

0 modelo (15.4) e chamado modelo com efeitos fixos, no sentido de que as 
subpopulagoes determinadas pelos nfveis do fator sao aquelas de interesse do pesquisador. 
Se o experimento fosse repetido, amostras aleatorias das mesmas subpopulagoes seriam 
extrafdas e analisadas. Pode-se considerar, tambem, modelos com efeitos aleatorios, 
mas esse caso nao sera tratado neste livro. 

Exemplo 15. I Urn psicologo esta investigando a relagao entre o tempo que urn indi- 
vfduo leva para reagir a urn estfmulo visual ( Y) e alguns fatores, como sexo (w), idade 
(X) e acuidade visual (z, medida em porcentagem). Na Tabela 15.1 temos os tempos 
para n - 20 individuos (valores da v.a. Y). 0 fator sexo tern dois nfveis: i = 1: sexo 
masculino (H) e i - 2: sexo feminino (M ), com n 1 = n 2 = 10. 0 fator idade tern cinco 
nfveis: i = 1: individuos com 20 anos de idade, i = 2: individuos com 25 anos etc., i = 5: 
individuos com 40 anos. Aqui, n 1 = ... = n 5 = 4. A acuidade visual, como porcentagem 


Tabela 15.1: Tempos de reapao a urn estfmulo (Y) e acuidade visual (Z) de 20 individuos, segundo 
o sexo (W)ea idade (X). 


Indivfduo 

Y 

W 

X 

Z 

1 

96 

H 

20 

90 

2 

92 

M 

20 

100 

3 

106 

H 

20 

80 

4 

100 

M 

20 

90 

5 

98 

M 

25 

100 

6 

104 

H 

25 

90 

7 

110 

H 

25 

80 

8 

101 

M 

25 

90 

9 

116 

M 

30 

70 

10 

106 

H 

30 

90 

11 

109 

H 

30 

90 

12 

100 

M 

30 

80 

13 

112 

M 

35 

90 

14 

105 

M 

35 

80 

15 

118 

H 

35 

70 

16 

108 

H 

35 

90 

17 

113 

M 

40 

90 

18 

112 

M 

40 

90 

19 

127 

H 

40 

60 

20 

117 

H 

40 

80 
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da visao completa, tambem gera cinco nfveis: i = 1: indivfduos com 100% de visao, i = 2: 
indivfduos com 90% de visao, e assim por diante. Nao foi possfvel controlar essa 
variavel a priori como as outras duas, ja que ela exige exames oftalmologicos para sua 
mensuragao. Dai o desbalanceamento dos tamanhos observados: n l = 2, n 2 , = 10, n 3 = 5, 
« 4 = 2 e n 5 = 1. Fatores desse tipo sao chamados de co-fatores. 

Assim, para o fator sexo, teremos o modelo (15.4) com / = 1, 2, j = 1, 2, 3, ..., 10, 
e para o fator idade, o mesmo modelo com i = 1, 2, ..., 5, j = 1, 2, 3, 4. 

Exemplo 15.2. Uma escola analisa seu curso por meio de urn questionario com 50 ques- 
toes sobre diversos aspectos de interesse. Cada pergunta tern uma resposta, numa escala 
de 1 a 5 (v.a. Y), onde a maior nota significa melhor desempenho. Na ultima avaliagao 
usou-se uma amostra de alunos de cada perfodo, e os resultados estao na Tabela 15.2. 
Aqui, o fator e perfodo, com tres nfveis: i = 1: manha, i = 2: tarde e / = 3: noite; temos n 2 = 7, 
n 2 = 6 e n 3 = 8. 


Tabela 15.2: Avaliagao de urn curso segundo o perfodo. 


Perfodo 

Manha 

Tarde 

Noite 

4,2 

2,7 

4,6 

4,0 

2,4 

3,9 

3,1 

2,4 

3,8 

2,7 

2,2 

3,7 

2,3 

1,9 

3,6 

3,3 

1,8 

3,5 

4,1 


3,4 



2.8 


Exemplo 15.3. Num experimento sobre a eficacia de regimes para emagrecer, ho- 
mens, todos pesando cerca de 100 kg e de biotipos semelhantes, sao submetidos a tres 
regimes. Apos urn mes, verifica-se a perda de peso de cada indivfduo, obtendo-se os 
valores da Tabela 15.3. 


Tabela 15.3: Perdas de peso de indivfduos submetidos a tres regimes. 



Regime 


1 

2 

3 

11,8 

7,4 

10,5 

10,5 

9,7 

11,2 

12,5 

8,2 

11,8 

12,3 

7,2 

13,1 

15,5 

8,6 

14,0 

11,4 

7,1 

9,8 
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Aqui, o fator e regime, com 7 = 3 niveis e cada regime e indexado por; i = 1, 2, 3. 
A v.a. Ye a perda de peso depois de urn mes. E(Y) = /;ea perda de peso global dos 18 
homens, n. e a perda media de peso para o regime i. As amostras tern todas o mesmo 
tamanho n 1 = n 2 = n 3 = 6. 


1. O modelo (15.4) pode ser escrito na forma 


y^H + U'+ej, 

com i = 1,.... Iej = 1,....«.. Dizemos que a., e o efeito diferenciado da subpopulagao P ou do 
nivel i do fator. Mostre que os estimadores de mfnimos quadrados para /d e a. sao dados por 


1 - 

com 

li i =i 

se impusermos a condigao i'W = 0 ■ 

2. Obtenha a., para os Exemplos 15.2 e 15.3. 

15.2 Modelo para Duas Subpopulacoes 

Inicialmente, consideremos o caso em que temos urn fator com dois niveis, como 
no Exemplo 15.1, com o fator sexo. Ou seja, queremos avaliar o efeito do sexo do 
individuo sobre o seu tempo de reagao ao estimulo. Temos, entao, o modelo 

v, ; /', - 0 ,- < 15 ' 6 ) 

onde 

/j,. - efeito comum a todos os elementos do nivel i = 1, 2; 
e - efeito aleatorio, nao-controlado, do ;-esimo individuo do nivel i, 
y = tempo de reagao ao estimulo do ;-esimo individuo do nivel i. 

15.2.1 Suposicoes 

E necessario introduzir suposigoes sobre os erros e a fim de fazer inferences 
sobre ^ e /u 2 . Iremos admitir que: 

(i) e ~ MO, <j 2 ), para todos i =1, 2 ej = 1, 2, ..., n, 

(ii) E(e r e ik ) = 0, para j * k e / = 1, 2, indicando independence entre observagoes 
dentro de cada subpopulagao. 
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(iii) E(e v e 2k ) - 0 , para todo j e k, indicando independence entre observagoes das 
duas subpopulagoes. 

Com essas suposigoes, temos duas amostras aleatorias simples, independentes entre 
si, retiradas das duas subpopulagoes N{/i v a 2 ) e N(p r a 2 ). 

Queremos testar a hipotese 

H v Mi — M 2 


contra a alternativa 


H i : M x * Mr 

Como ja salientamos acima, esse teste pode ser conduzido com os metodos do Capf- 
tulo 13, mas 0 objetivo aqui e introduzir a metodologia da analise de variancia, com urn 
caso simples. A extensao para mais de dois niveis sera estudada na segao 15.3. 

Note que estamos supondo que as variances residuais dos niveis I e 2 sao iguais, ou seja, 
Var(e 1; ) =Var(e 2 .) = o 2 , para todo j = 1, ..., n. (15.7) 

Essa e a propriedade conhecida como homoscedasticidade, isto e, estamos admi- 
tindo que a variabilidade residual e a mesma para os dois niveis (ou que P l e P 2 tern a 
mesma variabilidade segundo a v.a. Y). Note tambem que 

E(y tj ) = m„ Var(^) = Var(e y ) = a 2 *. (15.8) 

15.2.2 Estimacao do Modelo 

Nosso objetivo e estimar fi v n 2 e < 7 2 no modelo (15.6), para podermos testar H 0 . 
Usaremos estimadores de minimos quadrados. Poderiamos usar tambem estimadores 
de maxima verossimilhanga, pois sabemos que nossas observagoes tern distribuigao 
normal. Temos que, de (15.6), os residuos sao dados por 

e a = M, (15.9) 

e a soma dos quadrados dos residuos e dada por 

sq(h i,m 2 )“ = E& y.j-Mi) 2 

i =1 j =1 (=1 ;= 1 

= J2'bn ~ Mi ) 2 +£ ( y 2 j -m 2 ) 2 ' 

i =1 y=i 


ou seja, 


SQ(MvM 2 ) = XX + l2 e lj. 

j =1 7=1 


(15.10) 



15.2 MODELO PARA DUAS SUBPOPULACOES 


427 


Observe que essa soma de quadrados e uma fungao de ^e, p 2 Se as variances 
residuais das duas subpopulagoes nao fossem iguais, essa soma seria mais afetada por 
aquele nfvel que tivesse maior variancia, e isso deveria influenciar a escolha dos 
estimadores. Nesse caso, uma sugestao seria entao minimizarmos a expressao (15.10) 
com e 2 substituida por (e.Jo) 2 , com Var(e.) = a 2 , o que conduz a estimadores de 
mmimos quadrados ponderados. 

Derivando (15.10) em relagao a p 2 e p 2 obtemos: 


9SQ(p, 2 ,p, 2 ) \ '/ \ a • -i 

““ = = ,=l2 ' 


do que segue que os estimadores sao dados por 


1 - 

ih-zrzlyij-yi., (i5.il) 

2=1 

^ n2 

d2 =—Y,y2j = y2: (i5.i2) 

2 2=1 

que sao as medias das observagoes dos niveis I e 2, respectivamente. Logo, 


n \ n 2 

sg^^D^-^+D*,-*) 2 - d5.i3) 

2=1 2=1 

PodemoS pensar em (15.13) Como a quantidade total de informagao quadrdtica 
perdida pel a adogao do modelo (15.6). Essa soma e tambem denominada soma dos 
quadrados dos residuos. 

Vejamos outra maneira de escrever essa soma. Dentro do grupo dos homens, a 
variancia da subpopulagao P l pode ser estimada por 

1 " i 

$1= -TEX-*) 2 - (15.14) 

n l 1 2=1 

e a variancia da subpopulagao P 2 das mulheres e estimada por 

^2 = —— y 2 ) 2 - (15.15) 

n 2 1 2=1 

Segue-se que 

SQ(p 1 ,p 2 ) = (n 1 ~l)S 2 1 +(n 2 ~l)S 2 2 . ( 15 . 16 ) 
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Temos, acima, dois estimadores nao-viesados do mesmo parametro a 2 e, portanto, 
podemos definir uma variancia amostral ponderada 


S 2 _ (?? 1 -l)5 1 2 + (n 2 -l)5 2 2 

n i + ti 2 —2 

e, usando (15.16), podemos escrever 

^2 _ S Q(fi v fi 2 ) 


(15.17) 


(15.18) 


se n = n l + n 2 . Vemos que 5 2 e a quantidade media de informagao quadratica perdida e e 
um estimador nao-viesado de a 2 . Observe que esse e o mesmo estimador definido em (13.10). 

Temos, portanto, um primeiro enfoque para estimar a variancia desconhecida, a 2 , por 
meio da variancia devida ao erro OU variancia dentro de amostras, dada por 5 2 , que e 
baseada nas variancias amostrais, dadas por (15.14) e (15.15). A soma de quadrados 
(15.16) e tambem chamada de soma de quadradros dentro dos grupos. 

Um outro enfoque sera visto mais adiante, e que consiste em estimar a 2 , atraves de 
uma variancia entre amostras, baseada na variabi Iidade entre as medias amostrais, 
tambem chamada variagdo devida ao fator. 


Exemplo 15.1. (continuagao) Para os dados da Tabela 15.1, temos: 

Grupo dos Homens (nfvel I): = 110,1, -y) 2 = 670,9, S 2 = 74,54; 

Grupo das Mulheres (nfvel 2): y 2 =104,9, -y 2 ) 2 = 566,9, S 2 =62,99. 

Segue-se que 


5; = 


670,9 + 566,9 1.237,8 


18 


18 


= 68,77, 5=8,29. 


Note que a soma dos quadrados dos resfduos e 


SQ(p v p 2 ) = SQ(y 1 ,y 2 ) = 1.237,8. 

Observe, tambem, que e y 2 , denotam os tempos medios estimados de reagao ao 
estfmulo dos homens e mulheres, respectivamente. 

Uma questao de interesse e a seguinte: sera que o conhecimento do sexo de um 
indivfduo ajuda a melhorar a previsao do tempo de reagao dele ao estfmulo? Para 
responder a essa questao, devemos ter algum modelo alternative para poder comparar 
os ganhos. O modelo usualmente adotado e o mais simples de todos, ou seja, aquele 
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que considera os dados vindos de uma unica populagao. Suponha que os valores da 
v.a. Y para todos os n = 20 indivfduos sigam o modelo 

y.-p + e., i = 1,2.20. (15.19) 

Podemos considerar esse modelo como sendo para uma populagao, ou seja, aquela 
de todos os indivfduos para a qual queremos investigar o tempo de reagao ao estfmulo, 
independentemente do sexo, idade e outros fatores. 

Para o modelo (15.19) a soma dos quadrados dos resfduos e 


SQ[p) = Y J e 2 = Y J [y i -p) 2 , (15.20) 

i =1 i=l 

e o estimador de mfnimos quadrados de p, e obtido derivando-se (15.20) com relagao 
ape igualando a zero, chegando-se a 


M = -Ev ; =y. (15.21) 

U i=l 

ou seja, a media de todas as observagoes. Como aqui y. ~ N(p, o 2 ), urn estimador da 
variancia residual o 2 e 

e 


S 2 


1 

71 — 1 


XX y i~y )2 


SQ(p) 

77—1 


ou seja, a nossa conhecida variancia amostral. 
Para os dados da Tabela 15.1, encontramos 


(15.22) 


y = 


2.150 

20 


107,50, 


2 = i£^£ 5 = 8,5. 

19 

Assim, sem informagao adicional, podemos prever o tempo de reagao de urn indi- 
vfduo como sendo 107,50, com urn desvio padrao de 8,5. Os resfduos desse modelo e 
do modelo (15.6) estao na Tabela 15.4, colunas *?(l) e e(2), respectivamente. Compa- 
rando esses resfduos, vemos que os segundos melhoram urn pouco as previsoes, isto 
e, fazem cair o erro quadratico medio de 8,5 para 8,29. Mas essa queda nos parece 
pequena para justificar a inclusao do fator sexo no modelo, e talvez fosse preferfvel 
adotar o modelo mais simples (15.19). 
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Tabela 15.4: Resfduos para varios modelos ajustados aos dados do Exemplo 15.1. 


Reslduos dos Modelos 


variaveis 

e(l) 

e(2) 

e(3) 

Indivlduo 

Tempo de 
Reagao 

Sexo 

Idade 

y,-y 

y 9 ~y t 

y^-y. 

1 

96 

H 

20 

-11,50 

-14,1 

-2,50 

2 

92 

M 

20 

-15,50 

-12,9 

-6,50 

3 

106 

H 

20 

-1,50 

-4,1 

7,50 

4 

100 

M 

20 

-7,50 

-4,9 

1,50 

5 

98 

M 

25 

-9,50 

-6,9 

-5,25 

6 

104 

H 

25 

-3,50 

-6,1 

0,75 

7 

110 

H 

25 

2,50 

-0,1 

6,75 

8 

101 

M 

25 

-6,50 

-3,9 

-2,25 

9 

116 

M 

30 

8,50 

11,1 

8,25 

10 

106 

H 

30 

-1,50 

-4,1 

-1,75 

11 

109 

H 

30 

1,50 

-1,1 

1,25 

12 

100 

M 

30 

-7,50 

-4,9 

-7,75 

13 

112 

M 

35 

-4,50 

7,1 

1,25 

14 

105 

M 

35 

-2.50 

0,1 

-5,75 

15 

118 

H 

35 

10,50 

7,9 

7,25 

16 

108 

H 

35 

0,50 

-2,1 

-2,75 

17 

113 

M 

40 

5,50 

8,1 

-4,25 

18 

112 

M 

40 

4,50 

7,1 

-5,25 

19 

127 

H 

40 

19,50 

16,9 

9,75 

20 

117 

H 

40 

9,50 

6,9 

-0,25 

dp- 




8,50 

8,29 

6,08 

2d.p. 




17,00 

16,58 

12,16 


Nota: Nesta tabela estao expressos os reslduos de diversos modelos ajustados aos dados e colocados juntos para comparar os "lucros" na adocoo de cada modelo. 
No texto aparece o significado de cada coluna dos reslduos. 


15.2.3 Intervalos de Confianca 

Com as suposigoes feitas sobre os erros, podemos escrever 

y^^Nin^.a] /«j), y 2 ~N(/j, 2 ,cr 2 e / n 2 ), (15.23) 


o que permite construir intervalos de confianga separados para os dois parametros /g e 
iu 2 , como ja vimos anteriormente. Esses tern a forma 


y< ^ r~' 

Jn, 


i = 1, 2, 


(15.24) 
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onde t e o valor critico da distribuigao t de Student com v = n - 2 graus de liberdade, 
tal que P(-t^<t[n-2) <? ) = 7 , 0 < y< 1. Observe que o numero de graus de liberda¬ 
de e (n - 2 ) e nao n. - I, porque 

w [n — 2)S 2 2 , ^ 

Vv =-j— \ n ~2-) 

°e 

z, 

e, portanto, = =--- tem distribuigao r(n - 2) pelo Teorema 7.1. 

y]WI(n-2) ft 

Daqui, obtemos (15.24). 


Exemplo 15.1. (continuagao) Para o Exemplo 15.1, temos: 


1C (ft; 0,95) =110,10±(2,101)8,29/Vl0=]104,59; 115,611, 


IC(ft; 0,95) = 104,90±(2,101)8,29/Vl0=]99,39; 110,411, 

com r 0 95 = 2,101 encontrado na Tabela V, com v = 18 graus de liberdade. 

Ainda, com as suposigoes feitas, podemos concluir que 

yi-y 2 ~tf(ft-ft, ft/ft + ft/ft), (15.25) 

de modo que a estatistica 


(yi — y 2 ) — (a*i—a*z) 

S^l/ft+ 1/ « 2 ) 


(15.26) 


tem distribuigao t de Student com v = 772 + /i 2 - 2 = n - 2 graus de liberdade, e urn 
intervalo de confianga para a diferenga ft - ft pode ser construfdo. 


Exemplo 15.1. (continuagao) Para 0 exemplo, 

IC(ft-ft; 0,95) = (y 1 -y 2 ) ± t y S e jlI ft + 1 / w 2 

= (110,1-104,9)±(2,101)(8,29)^1/10 + 1/10 =] —2,59; 12,99[. 
Este resultado implica que a hipotese 


7/ 0 ■ Mi — M 2 


( 15 . 27 ) 
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nao pode ser rejeitada no nivel a = 0,05, ja que o zero pertence ao intervalo. Isso esta 
de acordo com o resultado ja apontado de que o conhecimento do sexo de um indivi- 
duo nao ira ajudar a prever o tempo de reagao ao estfmulo. 

0 teste da hipotese para (15.27), com as suposigoes adotadas, e feito usando a esta- 
tistica (15.26), com n x + n 2 - 2 g.l., obtendo-se o valor observado t 0 = 1,40, que, compa- 
rado com o valor crltico de 2,101(a = 5% e 18 g.l.), leva a nao-rejeigao da hipotese, como 
foi visto acima. 

15.2.4 Tabela de Analise de Variancia 

As operagoes processadas anteriormente podem ser resumidas num quadra, para 
facilitar a analise. Se (15.27) for valida, o modelo adotado sera 

y.. = u + e , 

e a quantidade de informagao perdida (devida aos reslduos) sera dada por 

Se(£)=E5^ty-?) 2 . (15.28) 

i=l j =1 

que iremos chamar de soma de quadrados total, abreviadamente, SQTot. 

Analogamente, adotado o modelo (15.4), a quantidade de informagao perdida e 
dada por (15.13) OU (15.16), e que chamamos de soma de quadrados dos residuos, 
abreviadamente, SQRes, ou soma de quadrados dentro dos dois grupos, abreviadamente, 
SQDen. 

A economia obtida ao passarmos de um modelo para outro sera 

SQTot- SQDen =SQEnt, (15.29) 

que chamaremos de soma de quadrados entre grupos. Nao e dificil provar que (veja o 
problema 18) 


SQEnt = ]T«,(y,.-y) 2 . ( 15 . 30 ) 

/=1 

Observando essa expressao, vemos que ela representa a variabilidade entre as medi- 
as amostrais, ou seja, uma "distancia" entre a media de cada grupo e a media global. 
Donde o nome "soma de quadrados entre grupos". Quanto mais diferentes forem as 
mediasy., i = 1, 2, maior sera SQEnt e, consequentemente, menor sera SQDen. 

As quantidades 


SQTot 


QMTot 


n — 1 


(15.31) 
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e 



(15.32) 


Sao chamadas quadrado medio total e quadrado medio dentro (OU residual), respec- 
tivamente. 

Todas essas informagoes sao agrupadas numa unica tabela, conhecida pelo nome 
deANOVA (abreviagao de A Nalysis Of VAriance), descrita na Tabela 15.5. 


Tabela 15.5: Tabela de Analise de Variancia (ANOVA). 


F.V. 

g.l. 

SQ 

QM 

F 

Entre 

1 

SQEnt 

QM Ent 

QMEnt/S, 2 

Dentro 

n - 2 

SQDen 

QM Den (ou S f 2 ) 


Total 

n - 1 

SQTot 

QM Tot (ou S 2 ) 



Na primeira coluna temos as descrigoes das diferentes somas de quadrados, tec- 
nicamente indicadas por fontes de variagao (F.V.). Os graus de liberdade (g.l.) da 
segunda coluna estao associados as respectivas somas de quadrados, sendo que o 
numero de g.l. da SQE e obtido por subtragao. Falaremos abaixo sobre QM Ent e a 
razao F = QM Ent/QM Den. 

Exemplo 15.1. (continuagao) Com os dados obtidos anteriormente para o Exemplo 15.1, 
podemos construir a tabela ANOVA para o modelo (15.4). 0 resultado esta na 
Tabela 15.6. 


Tabela 1 5.6: Tabela ANOVA para o Exemplo 15.1. 


F.V. 

g.l. 

SQ 

QM 

F 

Entre 

1 

135,20 

135,20 

1,97 

Dentro 

18 

1.237,80 

68,77 


Total 

19 

1.373,00 

72,26 



Da ANOVA encontramos os desvios padroes residuais S e = ^68,77 = 8,29do "mo¬ 
delo complete" (15.4) e s =^12,26 =8,50- do "modelo reduzido" (15.19). A econo- 
mia propiciada ao passar de urn modelo para outro, em termos de soma de quadrados, 
e 135,20, e em termos de quadrados medios, comparando 72,26 e 68,77. Proporcio- 
nalmente, economizamos 


135,20 


0,0985 9,85%, 


1.373,00 
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ou seja, aproximadamente 10% na SQ de resfduos. Podemos dizer que essa e a pro- 
porgao da variagdo explicada pelo modelo (15.9). Essa medida e chamada coeficiente 
de explicagdo do modelo, denotada por 


.2 _ SQEnt 
SQTot' 


(15.33) 


Essa medida ja foi usada na segao 4.6. Veja o problema 27. 

A conveniencia ou nao do modelo (15.4) esta associada ao teste (15.27), ja que 
aceitar essa hipotese implica a adogao do modelo (15.19). Com as suposigoes feitas, a 
estatistica para o teste e (15.26), que, sob H 0 fica 


yi-y 2 

S^lln.+lln, ' (15 ' 34) 

que tern distribuigao t(n 1 + n 2 - 2). Tambem sabemos que o quadrado de rtem distri- 
buigao F( 1, n 1 + n 2 - 2) (ver segao 13.3). Contudo, 

QM Ent = SQEnt = n 1 (y 1 -y ) 2 + n 2 (y 2 -y) 2 , 


e como 


__ «i)i + n 2 y 2 
i\ + n 2 


podemos escrever 


Q MEnt = ^My 1 ^y 2 ) 2 

>\ + n 2 


(vi-y 2 ) 2 

!/«!+!/ n 2 


Logo, concluimos que 


(yi-y 2 ) 2 __ QM Ent 

S][H i\+lln 2 ) Sl 


(15.35) 


(15.36) 


Essa e a estatistica que aparece na ultima coluna da tabela A NOVA. Portanto, po¬ 
demos usar F, com (1, n - 2) graus de liberdade para testar a hipotese (15.27). Rejeita- 
remos H 0 se F > c, c determinado pelo nivel de significancia do teste. 


Exemplo 15.4. Da A NOVA da Tabela 15.6, vemos que o valor da estatistica F e 1,97. 
Consultando a Tabela VI, com (1,18) g.l. e a= 0,05, encontramos o valor critico 4,41. 
Logo, nao rejeitamos H 0 \ p x = p 2 . Isso significa que nao ha vantagem em usar o modelo 
(15.4) no lugar de (15.19). 
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jpin 


emas 


3. Na tabela abaixo estao os dados referentes a uma amostra de 21 alunos do primeiro ano 
de um curso universitario. As variaveis sao: 

Y: nota obtida na primeira prova do curso; 

X: se cursou escola particular (P) ou oficial (O); 

Z: o perfodo em que esta matriculado: manha (M ), tarde (T), noite (N). 


y 

56 

68 

69 

70 

70 

72 

75 

77 

83 

84 

84 

X 

P 

O 

P 

P 

O 

O 

O 

P 

P 

P 

O 

Z 

N 

M 

M 

M 

T 

N 

M 

M 

T 

N 

N 

y 

85 

90 

92 

95 

95 

95 

100 

100 

100 

100 


X 

O 

P 

O 

P 

P 

P 

P 

P 

P 

P 


Z 

T 

T 

M 

M 

N 

T 

T 

M 

M 

T 



Considere o modelo y. =n + <?., / = 1, 2,..., 21, e.~ MO, a 2 ). Obtenha os erros quadraticos 
medios de fl e& 2 . Construa intervalos de confianga para /J e a 2 , com coeficiente de 
confianga 95%. Analise os resfduos do modelo. 

4. Usando os dados do problema 3, voce diria que o fato de a pessoa ter cursado a escola 
particular ou oficial influi no resultado da primeira prova? Siga todos os passos do 
Exemplo 15.1 para responder a essa pergunta. 

5. Usando os dados do Exemplo 15.2, voce diria que o fato de estudar durante o dia ou a 
noite afeta o desempenho dos alunos? 

6. Numa pesquisa sobre rendimentos por hora, com assalariados segundo o grau de instru- 
gao, obtiveram-se os dados da tabela abaixo. Construa a tabela ANOVA e verifique se 
existe diferenga significativa entre os rendimentos das duas categorias. 


Escolaridade 

n 

lx. 

lx] 

Fundamental 

50 

111,50 

259,93 

Medio 

20 

71,00 

258,89 


[Observagao: rendimentos (x) expressos como porcentagem do salario minimo.] 


7. Obtenha a tabela ANOVA para o Exemplo 15.3, usando o fator regime com os niveis I e 2. 


15.3 Modelo para Mais de Duas Subpopulacoes 

Para ilustrar essa situagao, vamos considerar o fator idade para o Exemplo 15.1. 
Consideremos o modelo 


y.. - H + e , 

J IJ ** IJ 


(15.37) 
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para i - 1, 2, 3, 4, 5 (niveis de idade) ej = 1, 2, 3, 4 (quatro individuos para cada nfvel 
de idade). Na Figura 15.2 temos os box plots da variavel resposta (tempo de reagao 
estfmulo), para cada nfvel do fator idade. Vemos claramente que o tempo aumenta 
com a idade. 


Figura 15.2 Box plots para a variavel Y (estfmulo) para cada nfvel de idade. 



Agora, queremos minimizar 

5 4 

SQiih .Ms ) = SS^“/ i .-) 2 - (15.38) 

i=l 7=1 

com as hipoteses E(e.) = 0, para todo i, j e Var(e y ) = a 2 , para todo i,j. E facil verificar 
que os estimadores das medias p, sao 

1 4 

zlyu = y,' i=l ’ 2 - 5 - (15.39) 

n i 7=1 


e que 


SQDen = SQRes = SQ(/2 1 , ..., /1 5 ) =^y~](y, 7 -y,) 2 , 

1=1 7=1 


SQDen = ^(/i,.-l)5, 2 , 

i=l 


ou seja, 


































15.3 MODELO PARA MAIS DE DUAS SUBPOPULACOES 


437 


onde S 2 e variancia amostrals do i-e simo nfvel (grupo de idade). Todas essas variances 
amostrais sao estimadores nao-viesados de a 2 , logo pode-se, novamente, considerar 
o estimador ponderado 


s 2 = 

Para nossos dados, obtemos: 
(1) i = I (20 anos) 


EliK-Us, 2 SQD 


en 


n —: 


n —. 


= 98,5, 

(2) i = 2 (25 anos) 
y 2 = 103,25, 

(3) i = 3 (30 anos) 
y 3 =107,75, 

(4) i = 4 (35 anos) 
y 3 = 110,75, 

(5) i - 5 (40 anos) 
y 3 =117,25, 

Segue-se que 


Eli^-^i) 2 ^ 107 - 0 ' =35,67 

E- = i^2;-y 2 ) 2 = 78,75, S 2 2 = 26,25 
E>3 7 -y 3 ) 2 = 132,75, 5 3 2 = 44,25 
E!-iK--^) 2 = 94,75, 5 2 = 31,58 
ElEs,-^) 2 =140,75, 5 2 = 46,92. 


S 2 = 554/15 = 36,93, S e = 6,08. 

A tabela A NOVA para o fator idade esta na Tabela 15.7. 


(15.40) 


Tabela 15.7: Tabela ANOVA para o Exemplo 15.1 , com fator idade. 


F.V. 

g.l. 

SQ 

QM 

F 

Entre 

4 

819,00 

204,75 

5,54 

Dentro 

15 

554,00 

36,93 


Total 

19 

1.373,00 

72,26 



Da tabela conclufmos que houve uma redugao substancial na soma de quadrados 
(819 unidades quadradas), ou seja, 


59,65%, 
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isto e, aproximadamente 60% da variagao total e explicada pelo fator idade, reduzindo 
o erro quadratico medio de 8,50 para 6,08. 

Como antes, podemos construir os intervalos de confianga para os parametros n r 
Por exemplo, para o grupo de idade de 25 anos, 

IC(/i 2 ; 0,95) = 103,25± (2,131 ^ 6,08) =]96,77; 109,73[. 

Os resfduos desse modelo encontram-se na Tabela 15.4, coluna e(3), e verifi- 
camos que eles diminufram bastante, indicando a boa capacidade de previsao do 
modelo. A analise dos resfduos na Figura 15.3 nao sugere violagao de nenhuma 
das suposigoes feitas. 


Figura 15.3 Resfduos do modelo y.. = jl i + e.. para o fator idade. 
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A hipotese 


H 0 \^ 1 = ... = fi 5 (15.41) 

pode ser testada usando-se o valor 5,54 da estatfstica F. Da Tabela VI encontramos que 
o valor crftico de F(4,15), com a = 0,05, e 3,06, logo rejeitamos H 0 . Ou seja, ha 
evidencias de que os tempos medios de reagao para os diversos grupos de idade nao 
sejam todos iguais. 
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emas 


8. Usando os dados do problema 3, voce diria que o perfodo que o aluno esta cursando 
influencia seu desempenho na primeira prova? 

9. Continuagao do problema 6. Na pesquisa de salario, acrescentou-se uma amostra de 
universitarios. 

(a) O grau de escolaridade influencia os rendimentos? 

(b) Qual seria o rendimento medio para pessoas com formagao universitaria? 

(c) Existe diferenga entre os rendimentos medios daqueles com instrugao universitaria e 
assalariados com primeiro grau? Com segundo grau? 


Escolaridade 

n 

Xx. 

2x 2 

Fundamental 

50 

111,50 

259,93 

Medio 

20 

71,00 

258,89 

Superior 

10 

84,30 

717,94 


10. Quer-se verificar a durabilidade de duas marcas de tintas que tern pregos de custo bem 
diferenciados. Para isso foram selecionadas dez casas, cinco pintados com a marca A e 
as cinco restantes pintados com a marca B. Apos um perfodo de seis meses, foi atribufda 
a cada casa uma nota, resultante de varios quesitos. Os resultados foram os seguintes: 


Marca A 

85 

87 

92 

80 

84 

Marca B 

91 

91 

92 

86 

90 


Com esses dados, voce diria que uma das marcas e melhor do que a outra? 

15.4 Comparacoes entre as Medias 

A analise de variancia e apenas o primeiro passo no estudo de comparagao de 
medias de varios grupos. Quando o modelo que esta sendo testado apresenta pouco 
poder de previsao, ou seja, quando nao houver evidences para rejeitar a hipotese de 
igualdade entre as medias, entao a analise e final. 0 fator que esta sendo investigado 
nao produz efeito nenhum sobre a variavel resposta. 

Entretanto, quando o teste rejeita a hipotese de igualdade (15.2), estamos afirmando 
que ocorre pelo menos uma desigualdade, e essa conclusao na maioria dos casos nao 
e suficiente para o pesquisador. Ele deseja saber de que modo ocorre essa desigualdade. 
Como ilustragao, suponha que se rejeite a hipotese H 0 : ju 2 = ju 2 - n 3 . Entao, existem as 
seguintes possibilidades para a alternativa: 

(1) ^ = \x 2 A \i y (2) A n 2 = (3) ^= 11 ^ fx 2 , e (4) A /u 2 A /j 3 . 

Existem varios metodos para resolver esse problema, e alguns deles podem ser 
vistos em Peres e Saldiva (1982). Aqui iremos discutir apenas um deles. 
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Um modo de investigar a causa da rejeigao e comparar os grupos dois a dois. 
Como ja foi visto na segao 15.2, isso pode ser feito por meio da construgao de intervalos 
de confianga para a diferenga, obtendo-se, por exemplo, 

IC(/U 1 -/X 2 .‘7) = (>i — y 2 ) ± t -,S e ^/l/ + 1 / n 2 , (15.42) 

com t y obtido de uma distribuigao t de Student com n - / graus de liberdade. Poderfa- 
mos, entao, construir os intervalos para todos os possiveis pares e, observando-se 
aqueles que nao contem o valor zero, obter conclusoes sobre a razao da rejeigao. 

Exemplo 15.5. Investigando o efeito da idade, vimos que a hipotese H 0 foi rejeitada. 0 
intervalo de confianga para a diferenga de duas medias quaisquer seria dado por 


1C U - 0,95) = (y ; -y.)±(2,131)(6,08)Vl/4 + l/4 

= (y-y.)±9,l6. 

Segue-se que grupos de idade cuja diferenga de medias seja superior a 9,16 seriam 
diferentes. Na Tabela 15.8 observa-se que se aceita a igualdade apenas para grupos 
vizinhos, indicando uma relagao mais forte entre as variaveis, fato que sera explorado 
no proximo capftulo. 


Tabela 15.8: Medias e diferempas de medias para os diversos grupos de idades para o Exemplo 15.1 . 


Grupo 

20 anos 

25 anos 

30 anos 


35 anos 

40 anos 

Media 

98,50 

103,25 

107,75 


110,75 

117,25 

Diferenca 

4,75 


4,50 

3,00 


6,50 


No entanto, com esse procedimento nao se pode controlar as probabi I idades do erro 
de tipo I, ou seja, a probabilidade de rejeitar uma hi potese verdadeira. Por exemplo, 
suponhamos que todas as medias sejam iguais. No problema acima, com cinco 
grupos e sob a hi potese nula, terfamos entao = 10 possiveis comparagoes duas a 
duas, cada uma testada no nfvel de 5%, e a probabilidade de que pelo menos uma das 
comparagoes exceda 9,16 e bem maior do que 5% (na realidade, pode ser mostrado 
que essa probabilidade esta em torno de 29%). Essa probabilidade cresce com o 
numero de comparagoes. Para controlar melhor essa probabilidade global do erro de 
tipo I, pode ser usada uma corregao, baseada na desigualdade de Bonferroni (ver 
problema 19). Usa-se, entao, o intervalo 

IC (Hi -Hj ; 7 ) = ( 7i ~7j) ±t*S e 1 /+1 / rij , (15.43) 

onde 0 unico valor que muda e 0 de t* y , que tern 0 mesmo numero de graus de liberdade, 
mas 0 nfvel de significancia agora e a* - aim, onde m e 0 numero de comparagoes duas 
a duas que desejamos fazer. 
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Exemplo 15.6. No Exemplo 15.5, d = 0,05/10 = 0,005. Da Tabela V, com 15 graus de 
liberdade, encontramos t* - 3,438 (obtido por interpolagao linear) e entao 

IC( Mi -/x.;0,95) = (y 1 -y 2 )±(3,438)(6,08)^72 
(yi-y 2 )±l4,78. 

Rejeitaremos H 0 para diferengas maiores do que 14,78 e vemos que apenas existe 
diferenga entre os grupos de 20 e 40 anos. 

Os intervalos de Bonferroni sao conservadores, pois o nivel a* real sera menor do 
que aquele nominal, e essa diferenga aumenta com m. Portanto, recomenda-se que o seu 
uso seja restrito a urn numero pequeno de comparagoes. 


emas 


11. Queremos verificar o efeito do tipo de impermeabilizagao em lajes de concreto. As quan- 
tidades de agua que passaram pela laje, em cada tipo, foram medidas durante urn mes, 
obtendo-se os valores da tabela abaixo. Que conclusao pode obter? 


1 

II 

III 

IV 

56 

64 

45 

42 

55 

61 

46 

39 

62 

50 

45 

45 

59 

55 

39 

43 

60 

56 

43 

41 


12. Os dados abaixo vem de um experimento completamente aleatorizado, onde 5 processos de 
estocagem foram usados com um produto perecfvel por absorgao de agua. 25 exemplares 
desse produto foram divididos em cinco grupos de cinco elementos, e apos uma semana 
mediu-se a quantidade de agua absorvida. Os resultados codificados estao no quadro abai¬ 
xo. Existem evidencias de que os processos de estocagem produzem resultados diferentes? 




Sexo 



A 

B 

C 

D 

E 

8 

4 

1 

4 

10 

6 

-2 

2 

6 

8 

7 

0 

0 

5 

7 

5 

-2 

-1 

5 

4 

8 

3 

-3 

4 

9 


15.5 Teste de Homoscedasticidade 

Uma das suposigoes basicas para a aplicagao da teenica de A NOVA e a de 
homoscedasticidade, ou seja, que a variancia seja a mesma em todos os nfveis. Muitas 
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vezes, nao podemos garantir a priori se essa suposigao e adequada, e podemos anali- 
sar os dados para obter uma resposta. Podemos fazer uma inspegao visual ou um teste. 
A seguir apresentaremos o teste de Barlett para testar a igualdade de variances (veja 
Dixon e Massey, 1957): 


Hq'.u] =o\= ... = a) (15.44) 

As informagoes de que dispomos sao: os tamanhos amostrais n., e variances 
amostrais 5. 2 = 1, 2, ..., I, com n = n 1 + ... +n r 
0 teste e construfdo do seguinte modo: 

(i) calcule a variancia comum 


(ii) calcule 


(iii) calcule 


.S’ 2 = 


ELk - 1 ) 5 - 

n — I 


SQDen 
n — 1 


QMDen ; 


M = (n — I)inS] - (7i,. -1) lnS\\ 

i =1 


C = 1 + 


3(7-1) 


E 


\ n t 


n — I 


(iv) construa a estatfstica MIC, que segue uma distribuigao aproximada qui- 
quadrado, com I - 1 g.l., para amostras grandes. Esquematicamente, 

M/C ~ l 2 (/- I). 


Exemplo 15.7. Voltemos aos dados do tempo de reagao ao estfmulo como fungao da 
idade. Da amostra obtemos os seguintes resultados: 


Grupo etario 

20 

25 

30 

35 

40 

Tamanho amostra 

4 

4 

4 

4 

4 

Variancia 

35,67 

26,25 

44/25 

31,58 

46,92 


Seguindo os passos (i) - (iv) acima, obtemos: 

(i) S = 36,93; 

(ii) M = (20 - 5)€/i(36,93) - 3[€«(35,67) + ... + €n(46,92)] = 0,36; 


(iv) M/C = (0,36)/(l,13) = 0,32. 
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Consultando a Tabela IV, com 4 g.l. e a = 0,05, encontramos x] = 11,1, e portanto 
nao rejeitamos a hipotese H 0 de igualdade de variances. 

15.6 Exemplo Computacional 

Vamos utilizar o M initab para ilustrar o uso de um pacote para resolver um problema 
de analise de variancia. Retomemos o Exemplo 15.1, como fator idade. 0 Quadra 15.1 
mostra a safda do M initab, usando a opgao A NOVA do menu. Observe que os valores 
encontrados coincidem com aqueles ja obtidos na segao 15.3, Tabela 15.7. 0 valor-/? 
do teste de igualdade de medias e indicado por P = 0,006. A safda mostra tambem as 
estimativas das medias dos grupos, os desvios padroes e o desvio padrao ponderado, 
S = 6,08. Os intervalos de confianga individuals estao mostrados de forma pictorica, 
com uma escala anexa, notando-se intersecgoes que levam a rejeigao da hi potese de 
igualdade de medias. 


Quadro 15.1 : ANOVA para o Exemplo 15.1. Minitab. 

One-way Analysis of Variance 
Analysis of Variance for Cl 


Source 

DF 

SS 

MS 

C2 

4 

819.0 

204.8 

Error 

15 

554.0 

36.9 

Total 

19 

1373.0 



Level 

N 

Mean 

StDev 

20 

4 

98.50 

5.97 

25 

4 

103.25 

5.12 

30 

4 

107.75 

6.65 

35 

4 

110.75 

5.62 

40 

4 

117.25 

6.85 

Pooled 

StDev 

= 6.08 



F P 

5.54 0.006 

Individual 95% CIs For Mean 
Based on Pooled StDev 

_+ _ + _ +_ _ 

( _ * _ ) 

( _ * _ ) 

( _ * _ ) 

( _ * _ ) 

( _ * _ ) 

_+ _ + _ +_ _ 

100 110 120 


Na Figura 15.3 temos os resfduos para cada nfvel do fator idade, bem como os 
resfduos para todas as idades. Na Figura 15.4 vemos os box plots desses resfduos, por 
nfvel, e na Figura 15.5 o box plot dos resfduos para todas as idades. 
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Figura 15.4 Box plots para os resfduos 
por nfvel do fator idade. 



Figura 15.5 Boxplot para os resfduos 
de todas as idades. 



15.7 Problemas e Complementos 

13. A segao de treinamento de uma empresa quer saber qual de tres metodos de ensino e 
mais eficaz. O encarregado de responder a essa pergunto pode dispor de 24 pessoas 
para verificar a hipotese. Ele as dividiu em tres grupos de oito pessoas, de modo aleatorio, 
e submeteu cada grupo a um dos metodos. Apos o treinamento os 24 participantes foram 
submetidos a um mesmo teste, cujos resultados estao na tabela abaixo (quanto maior a 
nota, melhor o resultado). Quais seriam as conclusoes sobre os metodos de treinamento? 


Metodo 1 

Metodo 2 

Metodo 3 

3 

8 

4 

7 

6 

7 

5 

4 

4 

4 

7 

9 

2 

3 

3 

2 

8 

10 

4 

9 

8 

5 

6 

9 

lx. 

38 


37 


62 

Zx 2 

224 


199 


496 


14. Quer-se testar o efeito do tipo de embalagem sobre as vendas do sabonete Sebo. As 
embalagens sao as seguintes: 

A: a tradicional embalagem preta B : cartolina vermelha C: papel alumfnio rosa 
Escolheram-se tres territories de venda, com potenciais de vendas supostamente identicos. 
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Cada tipo de embalagem foi designado aleatoriamente a uma regiao e as vendas obser- 
vadas durante 4 semanas, obtendo-se os resultados da tabela abaixo. Quais seriam suas 
conclusoes e criticas a esse experimento? 


Replicas 

(Semanas) 

Embalagens 

A 

B 

C 

1 

15 

21 

9 

2 

20 

23 

13 

3 

9 

19 

20 

4 

12 

25 

18 

Total 

56 

88 

60 


15. Um produtor de gelatina em po esta testando um novo langamento e quer verificar em que 
condigoes de preparo o produto seria mais bem aceito. Vinte e quatro donas-de-casa 
atribuiram notas (0 a 10) para o prato que produziram com o produto. Junto com o 
produto foram fornecidos quatro tipos de receitas: duas para doces (A e D ) e duas para 
salgados (B eC). Feita a analise estatistica, quais recomendagoes vocefaria ao produtor? 
Discuta a vaiidade das suposigoesfeitas para resolver o problema. 


Receita 


A 

B 

C 

D 

2 

4 

3 

3 

5 

7 

5 

6 

1 

3 

1 

2 

7 

9 

9 

8 

2 

4 

6 

1 

6 

8 

8 

4 


16. Num curso de extensao universitaria, entre outras informagoes, obteve-se informagao 
sobre salario e area de formagao academica, com os seguintes resultados: 


Formacao 

n 

X 

s 

Humanas 

65 

28,75 

3,54 

Exatas 

12 

35,21 

5,46 

Biologicas 

8 

43,90 

4,93 


Aqui, n. indica a frequencia, x o salario medio, e s o desvio padrao amostral. Teste a 
hipotese de que os salarios medios nessas tres areas e o mesmo. 

1 7. Suspeita-se que quatro livros, escritos sob pseudonimo, sao de um unico autor. Uma 
pequena investigagao iniciai selecionou amostras de paginas de cada um dos livros, 
contando-se o numero de vezes que determinada construgao sintatica foi usada. Com os 
resultados abaixo, quais seriam as suas conclusoes? 
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Livros 


1 

2 

3 

4 

28 

29 

26 

39 

31 

33 

24 

27 

17 

35 

22 

35 

25 

24 

19 

34 

26 

28 

23 

28 

22 


25 

34 

24 


29 

33 



30 



18. Proveque QM E nt = (y, — >’) 2 ■ 

19. Contrastes Multiplos. Quando consideramos testar a hipotese /J.. = fx. dentre as I medias, 
a regiao crftica de nivel a sera dada por 

\y i -y i \> t c,i2 s eyj l l n i + l l >l j' (15.45) 


na qual t d2 encontra-se na Tabela V, com n-I graus de liberdade e tal queP(|r| > t a/2 ) = a. 
A aplicagao desse metodo apresenta um problema, que tem sido bastante estudado e e 
conhecido como o problema de contrastes multiplos. 

No nosso Exemplo 15.1, com quatro observagoes por grupo de idade, teremos de aplicar 


(15.45) para cada uma das m - 
= 0,05, 

por exemplo, teremos 


= 10 possfveis comparagoes de medias duas a duas. Se a 


p(\y i -y j \^t al2 S e Jm) = 0,95, (15.46) 

e a probabilidade de que se verifiquem as dez condigoes (15.46), supondo independencia, 
e (0,95) 10 = 0,598, enao 0,95. 

Portanto, aplicando-se o teste varias vezes, e provavel que aparegam diferengas entre 
grupos, mesmo que elas nao existam. 

Um metodo que resolve o problema e baseado na desigualdade de Bonferroni. Seja A ( o 
evento que consiste em rejeitar a hipotese /J.. sendo que essa hipotese e verdadeira. 
Suponha queP(A € ) = a. Sefiforo evento tal que rejeitamos pelo menos uma das hipote- 
ses, quando ela e verdadeira, entao 

B = A, U A, U ... U A . 

12 m 

Segue-se da desigualdade de Bonferroni que 

m 

P(B) = P(A 1 UA 2 U...UA m )^J2 P ( A e'>= ,na ■ 

£=l 
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Se indicarmos por a* a probabilidade do erro do tipo I global para os m contrastes, P(B ) 
=£ a*, logo tomamos o nfvel de cada contraste como 

a-oPbn. 

Para m grande, a pode sertao pequeno que nao o encontramos em tabelas da distribui- 
gao t de Student. Pode-se usar a aproximagao 


4v 



na qual v e o numero de graus de liberdade do distribuigao teZ a eo valor da N( 0,1) tal 
que P(Z > Zj = a. 

20. Construa uma ANOVA completa para os Exemplos 15.2 e 15.3. 

21. Usando a proposta do problema 19 e os dados do Exemplo 15.3, test e H 0 : ^ =/x 2 = jj. y 
com a = 0,05. 

22. Teste a igualdade de variancias para o Exemplo 15.3. 

23. Preparagao para intervalo de predigao, problema 24. As vendas diarias (Y) de urn grande 
centro de compras seguem uma distribuigao normal com media igual a $100 e desvio 
padrao igual a $20. 

(a) Qual o intervalo que contem 95% das vendas diarias? 

(b) SeX representor a media de amostras de vendas de nove dias, qual intervalo contera 
95% das medias? 

(c) Compare e interprete os dois intervalos acima. 

Suponha, agora, que nao se conhega nem a media nem o desvio padrao da popu- 
lagao. Sorteou-se uma amostra de nove dias com as seguintes vendas diarias: 

157 162 135 136 154 178 180 127 128 

(d) Qual a melhor estimativa para a media populacional? 

(e) E para o desvio padrao populacional? 

(f) Construa urn intervalo de confianqa (1C) de 95% para a media populacional. 

(g) Construa urn 1C para a variancia populacional. 

(h) Explique em poucas palavras o significado dos intervalos obtidos em (f) e (g). 

(i) Suponha, agora, que baseado nessa amostra voce deva responder a pergunta (a). 
Como voce nao conhece a media e a variancia populacional, voce decide "emprestar" 
os respectivos valores da amostra e calcular o intervalo. Qual seria esse intervalo? Voce 
tern alguma restriqao a essa resposta? 

(j) Consultando um livro de Estatfstica, voce encontrou a seguinte formula para prever 
uma possivel observaqao futura, Y- 

\P[Y f l -y) = y±t i Syjl + lTn. 

Esse intervalo e chamado intervalo de prediqao (ou previsao). Construa o IP e inter¬ 
prete o resultado. 

(k) Compare com a resposta dado em (h), explicando a diferenqa entre eles. 
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24. Intervalo de predigao. Vamos supor adotado o modelo (15.19) para a variavel Ye dese- 
jamos prever uma observagao futura Y Pelo modelo adotado, podemos escrever que 

Y r^ +E f 

que podera ser estimado por y = y +e fl e por desconhecer e f substitufmo-lo por seu 
valor esperado, que e zero. Logo, o estimador (ou predigao) da futura observagao passa 
a sera media da amostra. Admitindo a observagao futura como sendo independente das 
observagoes anteriores, podemos escrever 


Var(7 / ) = 

e que sera estimada por 


V ar(y) + V ar(e / ) = — + a 2 e = o e 

1 n ‘ 


- + 1 
n 


Var [Y f ) = s] 



Usando a mesma argumentagao para a construgao de intervalos de confianga, podemos 
construir urn 1C para a futura observagao, que chamaremos de intervalo de predigao (IP), 
do seguinte modo: 


IP (Y f ) 7 ) = }±t,S ( <P 

V n 

25. Mostre que o IP para uma observagao futura Y jfl do f-esimo grupo, pode ser escrito como: 

ip(*V; 7) = y,±t 7 sJi+± 

V n i 

e calcule o IP para uma pessoa de 40 anos no Exemplo 15.1. Compare com o respectivo 
1C para a media do mesmo grupo. 

26. Conduziu-se um estudo-piloto para determinar qual o intervalo de normalidade para o 
peso de criangas com dez anos de idade. Usando-se uma amostra de 50 criangas, en- 
controu-se o peso X de cada uma delas, com os seguintes resultados: Sx = 1.639,5 kg e 
Sx 2 = 56.950,33 kg 2 . Com esses dados, quais seriam os limites de um intervalo para que 
criangas com dez anos de idade fossem consideradas como tendo peso normal? 

27. Prove a equivalence das expressoes (15.33) e (4.13). 









Capi'tulo 1 6 


Regressao Linear Simples 


16.1 Introducao 

No Capftulo 8 introduzimos o conceito de regressao para duas v.a. quantitativas, X 
e Y. Vimos que a esperanga condicional de Y, dado que X = x, por exemplo, denotada 
por E (Y | x), e uma fungao de x, ou seja, 

E (Y |x)=//(x). (16.1) 

Em (8.27) definimos precisamente essa fungao. Uma definigao similar vale para 
E(X |y), que sera uma fungao de y. Estamos considerando aqui o caso em que X e Y sao 
definidas sobre uma mesma populagao P. Por exemplo, X pode ser a idade e Y o tempo 
de reagao ao estfmulo, no Exemplo 15.1. Nesse exemplo, a analise sugeriu a existen- 
cia de uma relagao mais forte entre as duas variaveis, e a modelamos por 

Yij ■■=& +e i; -, i = 1.5, j = 1.4, (16.2) 

onde y/i e a media do grupo de idade I. Podemos pensar que o fator idade determina 
cinco subpopulagoes (ou estratos) em P e de la escolhemos cinco amostras aleatorias 
de tamanhos n, = 4, i =1, ..., 5. 

Em (16.1), n[x) pode ser qualquer fungao de x; veja o Exemplo 8.21. Urn caso 
simples de interesse e aquele em que X e Y tern distribuigao conjunta normal 
bidimensional. Nesse caso, n(x) e /i(y) sao, de fato, fungoes lineares. Veja a segao 8.8. 

Continuando com o Exemplo 15.1, tanto X (idade) como Y (tempo de resposta ao 
estfmulo) sao v.a. contfnuas, e podemos pensar em introduzir urn modelo alternativo 
para y iJ; * dada a relagao entre X e Y. Observando as medias de Y, segundo os grupos de 
idades, ou seja, E(Ylx), percebemos que estas aumentam conforme as pessoas enve- 
Ihecem. A Figura 16.1 mostra os dados observados, onde notamos uma tendencia 
crescente, bem como os valores repetidos de Y para cada nfvel de idade x. 

Urn modelo razoavel para E(Y|x) pode ser 

E (Y | x) = /u(x) = a + j8x, 

ou seja, o tempo medio de reagao e uma fungao linear da idade. 


(16.3) 
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Figura 16.1 : Grafico de dispersao de idade e rea- 
pao ao estfmulo, com reta ajustada. 



A forma da fungao ju(x) deve ser definida pelo pesquisador, em fungao do grau de 
conhecimento teorico que ele tem do fenomeno sob estudo. Um modelo alternative a 
(16.2) seria, entao, 

hi = ^ x i) +v ( 16 ' 4 ) 

com E(Y |x.) = jutXj) = a+ /k./\ = 1, 2,5. Entretanto, a forma usual de escrever o modelo e 

y i =Ai(x i )+e i , (16.5) 

onde y. indica o tempo de reagao do i-esimo individuo com x. anos de idade, i = 1, 2, ..., n, e n 
e o numero total de observagoes. Teremos, entao, com essa notagao, valores repetidos para X, 
por exemplo, x 1 = ... = x 4 = 20. Convem reforgar a ideia que estamos propondo um modelo de 
comportamento para as medias das subpopulagoes, logo teremos de estimar os parametros 
envolvidos na fungao ^(x), baseados numa amostra de n = 20 observagoes, no exemplo. 

No caso de (16.3) o modelo pode ser escrito como 

y, =E(Y|x i ) +ej =a + /3x i +e i , i = 1, 2, ..., n, (16.6) 

devendo-se encontrar os valores mais provaveis para a e /?, segundo algum criterio, a 
partir de n observagoes de pares de valores de (X, Y). 

Antes de prosseguirmos, seria conveniente interpretar os parametros envolvidos no mo¬ 
delo (16.5). Sabemos que a, o intercepto, representa o ponto onde a reta corta o eixo das 
ordenadas, e /?, o coeficiente angular, representa o quanto varia a media de Y para um aumento 
de uma unidade da variavel X. Esses parametros estao representados na Figura 16.2. 


Figura 16.2: Representcupao do modelo E (Y | x) = a + (3x. 
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Voltando ao nosso exemplo, onde X e a idade e Y o tempo de reagao, (5 representa 
o acrescimo no tempo medio de reagao para cada ano de envelhecimento das pessoas. 
Aqui a representa o tempo de reagao para a idade zero (recem-nascido), o que e uma 
inadequagao do modelo. 

Observagao. Chamamos (16.3) de modelo linear, pois este representa uma reta. Todavia, 
em casos mais gerais, o termo linear refere-se ao modo como os parametros entram 
no modelo, ou seja, de forma linear. Por exemplo, o modelo 

E (Y | x) = a + fix + yx 2 , 

embora graficamente represente uma parabola, e modelo linear em a, {3 e y. Por 
outro lado, 


E (Y | x) = ae^ 


(16.7) 


nao e urn modelo linear em a e p. 

Determinados modelos nao-lineares podem ser transformados em lineares, por 
meio de transformagoes das variaveis. Assim, tomando-se o logaritmo (de base e) 
em (16.7) obtemos 


/nE (Y | x) = €n(a) + j8x = a'+ /3x, 


que e linear em a' e /?. 

Ao lado de urn tratamento formal para estudar o modelo (16.6), devemos usar as 
tecnicas de analise de dados que estudamos na Parte 1 do livro. Em particular, pode- 
mos fazer diversos tipos de graficos antes que o modelo seja ajustado, durante o 
processo de ajuste e, finalmente, depois que o modelo foi ajustado. 

A Figura 16.1 e urn exemplo de urn grafico que deve ser feito antes de selecionar 
o modelo. Ou seja, temos urn grafico de dispersao entre as variaveis X (idade) e Y 
(tempo de reagao ao estlmulo). Esse tipo de diagrama permite ver qual o tipo de 
relagao existente entre as variaveis, se ha valores atfpicos, se ha valores repetidos 
(como no Exemplo 15.1), se a variabilidade de Y esta aumentando ou nao com X etc. 
Nesse mesmo exemplo, se decidirmos incluir a variavel "acuidade visual" no mode¬ 
lo, terfamos duas variaveis explicativas e poderfamos fazer, por exemplo, graficos 
de dispersao entre a resposta e cada variavel explicativa e entre as duas variaveis 
explicativas. Este ultimo nos daria uma ideia do planejamento envolvido, ou seja, se 
os pares de valores das variaveis explicativas estao cobrindo o piano (x., x 2 ), se ha 
grupos de pontos etc. 

Exemplos de graficos depois do ajuste serao vistos na segao 16.5, quando fizermos 
uma analise dos residuos, para avaliar a adequagao do modelo aos dados. Graficos 
durante o ajuste sao utilizados quando estudarmos a possibilidade de considerar 
varios modelos alternatives para o problema em questao. Esse topico nao sera ex- 
plorado com detalhes no livro. 
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16.2 Estimacao dos Parametros 

* 

Como no capitulo anterior, iremos encontrar os estimadores de mfnimos quadra- 
dos para os parametros do modelo linear (16.6), mas o mesmo desenvolvimento pode 
ser aplicado em modelos mais complexos. Sera necessario ainda introduzir algumas 
suposigoes para as v.a. envolvidas. A primeira delas e que a variavel X e por hipotese 
controlada e nao esta sujeita a variagoes aleatorias. Dizemos que X e uma variavel fixa 
(ou sem erro ou determ infstica). Segundo, para dado valor x de X, os erros distribuem-se 
ao redor da media a + px com media zero, isto e, 

E (e, | x) = 0. (16.8) 

Em terceiro lugar, e pela mesma razao apresentada no capftulo anterior, devemos 
supor que os erros tenham a mesma variabilidade em torno dos nfveis de X, ou seja, 

Var(e,|x) = a]. (16.9) 

E em quarto lugar, introduziremos a restrigao de que os erros sejam nao-correlacionados. 

Colhida uma amostra de n indivfduos, teremos n pares de valores (x i( y), i = 1, ..., 
n, que devem satisfazer ao modelo (16.6), isto e, 

Yi = a + /IXj + e i( i = 1, ..., n. (16.10) 

Temos, entao, n equagoes e n + 2 incognitas [a, p, e lf e 2 , ..., e n ). Precisamos 
introduzir urn criterio que permita encontrar a e /3. Como no capftulo anterior, vamos 
adotar o criterio que consiste em encontrar os valores de a e ft que minimizam a 
soma dos quadrados dos erros, dados por 

ei =Yi - [a + j8Xi), i = 1.n. (16.11) 

Obtemos, entao, a quantidade de informagao perdida pelo modelo ou soma dos 
quadrados dos erros (ou desvios) 

SQ(a, p) = i e^ = t { Yi - (a + fa)} 2 . (16.12) 

i =i 1 i =i 

Para cada valor de a e j8 teremos urn resultado para essa soma de quadrados, e a 
solugao de mfnimos quadrados (MQ) e aquela que torna essa soma minima. Temos, 
entao, o problema de encontrar o mfnimo de uma fungao de duas variaveis, a e /?, no 
caso (ver Morettin et al., 2005). Derivando em relagao a a e ft e igualando a zero, 
observamos que as solugoes ae ft devem satisfazer 

n n 

na+jSZx, =Zy,, 

n n n 

x. + p E xf = E XiYi, 

i =1 i =1 i =1 


(16.13) 
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as quais produzem as solugoes 



a = y - fix, 



a _ XLiXiYi - nxy 

2 i=ixf-nx 2 ' 

(16.14) 

Substituindo em (16.3), teremos o estimador para a media /u(x), dado por 



£(xi) =a + fix i( i = 1, ..., n, 

(16.15) 

que iremos indicar por 

Yi =cc + px i , 

(16.16) 

ou, ainda, por 

= y - fix + px. t = y + p (x t - x). 

(16.17) 


Exemplo 16.1. Voltemos ao Exemplo 15.1 e vamos ajustar o modelo (16.10), com: 
y } : tempo de reagao do i-esimo indivfduo, 
x.: idade do i-esimo individuo, 
e^ desvio, i = 1, 2, ..., 20. 

Da Tabela 16.1 obtemos as informagoes: 

n = 20, ^Yi = 2.150, 2^= 600, J^y, = 65.400, 

y = 107,50, x = 30, £xf = 19.000. 

Substituindo em (16.14) obtemos 

a _ 65.400 - (20)(30)(107,50) _ n on 
P 19.000 - (20)(30) 2 

a = 107,50 - (0,90)(30) = 80,50, 
o que nos da o modelo ajustado 

y, = 80,50 + 0,90Xi, i = 1, 2 .20. (16.18) 

Com esse modelo podemos prever, por exemplo, o tempo medio de reagao para 
pessoas de 20 anos, que sera indicado por y (20) e determinado por 

y (20) = 80,50 + (0,90)(20) = 98,50. 

De modo analogo, os tempos medios para as idades 25, 30, 35 e 40 serao, respec- 
tivamente, estimados por: 103,00, 107,50, 112,00, e 116,50. Esses valores sao muito 
proximos daqueles encontrados na segao 15.3, e a vantagem desse modelo sobre aquele 
e a possibilidade de estimar o tempo de reagao medio para urn grupo de idades nao 
observado. Suponhamos, por exemplo, que se deseja estimar o tempo medio para o 
grupo de pessoas com 33 anos; este sera dado por 

y (33) = 80,50 + (0,90)(33) = 110,20. 

Na Figura 16.1 aparecem representados os dados observados, bem como a reta 
ajustada. Podemos observar que o modelo parece ser adequado, nao apresentando 
nenhum ponto com desvio exagerado. 
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1. Usando os dados do Exemplo 15.1: 

(a) Encontre a reta de minimos quadrados z, = a + j3Xj, onde z mede a acuidade visual e 
X, a idade. 

(b) Interprete o significado de ae /3 nesse problema. 

(c) Para cada indivfduo, encontre o desvio e, = z, - z,; existe algum com valor 
muito exagerado? 

2. A tabela abaixo indica o valor y do aluguel e a idade X de cinco casas. 

(a) Encontre a reta de M Q, supondo a relagao E (y | x) = a + fix. 

(b) Faga o grafico dos pontos e da reta ajustada. Voce acha que o modelo adotado 
e razoavel? 

(c) Qual o significado do coeficiente angular nesse caso? 

(d) E do coeficiente linear? 


X 

10 

13 

5 

7 

20 

y 

4 

3 

6 

5 

2 


3. Um laboratorio esta interessado em medir o efeito da temperatura sobre a potencia de urn 
antibiotico. Dez amostras de 50 gramas cada foram guardadas a diferentes temperaturas, 
e apos 15 dias mediu-se a potencia. Os resultados estao no quadro abaixo. 

(a) Faga a representagao grafica dos dados. 

(b) Ajuste a reta de M Q, da potencia como fungao da temperatura. 

(c) O que voce acha desse modelo? 

(d) A que temperatura a potencia media seria nula? 


Temperatura 

30° 

50° 

70° 

90° 

Potencia 

38 43 

32 26 33 

19 27 23 

14 21 


4. Ainda usando os dados do exemplo numerico 15.1, investigue o ajuste da reta de M Q na 
variavel tempo de reagao como fungao da acuidade visual. 

16.3 Avaliacao do Modelo 

* 

Nesta segao e nas seguintes estudaremos varias formas de avaliar se o modelo 
linear postulado e adequado ou nao, dadas as suposigoes que fizemos sobre ele. 

16.3.1 Estimador de a 2 e 

Como no capftulo anterior, para julgar a vantagem da adogao de um modelo mais 
complexo (linear ou outro qualquer), vamos usar a estrategia de compara-lo com o 
modelo mais simples, que e aquele discutido na segao 15.2, ou seja, 

Yi =ju + e,. (16.19) 

A vantagem sera sempre medida por meio da diminuigao dos erros de previsao, ou 
ainda, da variancia residual S e 2 . Para o modelo ajustado (16.16), cada residuo e dado por 

§i =Yi - Yi =Yi - a- hr (16.20) 
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Como vimos na segao 16.1, varios graficos envolvendo esses residuos podem ser feitos para 
avaliar se eles sao "bons representantes" dos verdadeiros e i desconhecidos, no sentido de que as 
suposigoes feitas sobre estes estao satisfeitas. Esses graficos serao estudados na segao 16.5. 

Quando estes residuos forem pequenos, temos uma indicagao de que o modelo esta produ- 
zindo bons resultados. Para julgarmos se o residuo e pequeno ou nao, devemos compara-lo 
com os residuos do modelo alternative, dados por y. - y. Da dificuldade de compara-los indivi- 
dualmente, preferimos trabalhar com as respectivas somas de residuos quadratics, dadas por 

SQTot = V (y - y) 2 (16.21) 

i =1 

6 

SQRes =J ef =E (y - y,) 2 . (16.22) 

i=i i=i 

Exemplo 16.1. (continuagao) Na quinta coluna da Tabela 16.1 aparecem os residuos 

= y, - 9i = yi - (80-50 + o,90Xi) 

que elevados ao quadrado e somados produzirao 

SQRes = 563,00. 

Sabemos que SQTot = 1.373,00, o que mostra uma sensivel redugao de 810 unidades. 
M ais ainda, a comparagao da quinta coluna da Tabela 16.1 com a coluna e(3) da Tabela 15.4 
mostra o melhor comportamento dos residuos do modelo de regressao (16.18). 


Tabela 16.1 : Residuos para o modelo (16.18). 


i 

Variaveis 

Residuos 

Tempo de 
Reapao 

Sexo 

Idade 

Yi - y 

1 

96 

H 

20 

-2,5 

2 

92 

M 

20 

-6,5 

3 

106 

H 

20 

7,5 

4 

100 

M 

20 

1,5 

5 

98 

M 

25 

-5,0 

6 

104 

H 

25 

1,0 

7 

110 

H 

25 

7,0 

8 

101 

M 

25 

-2,0 

9 

116 

M 

30 

8,5 

10 

106 

H 

30 

-1,5 

11 

109 

H 

30 

1,5 

12 

100 

M 

30 

-7,5 

13 

112 

M 

35 

0,0 

14 

105 

M 

35 

-7,0 

15 

118 

H 

35 

6,0 

16 

108 

H 

35 

-4,0 

17 

113 

M 

40 

-4,5 

18 

112 

M 

40 

-5,5 

19 

127 

H 

40 

9,5 

20 

117 

H 

40 

-0,5 

SQRes 




563 

S e 2 




31,28 

Se 




5,59 

2S e 




11,18 
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No entanto, a comparagao direta dessas somas de quadrados nao nos parece justa, 
pois o modelo (16.18) tem mais parametros do que o modelo (16.19). Vejamos, entao, 
como comparar as variances residuais. Para o modelo simples (16.19) o estimador 
nao-viesado de <r e 2 e 

S’-n^'-^-Tnr (16 ' 23) 

Tambem vimos que para o modelo (16.2), com I nfveis ou subpopulagoes, o esti- 
mado da variancia residual era 

c 2 _ SQDen _ SQRes (16.24) 

n - I n - I ’ 

e I tambem denota o numero de parametros desconhecidos do modelo (as medias n t ). 
Portanto, de modo geral, perde-se urn grau de liberdade para cada parametro envolvido 
no modelo e e natural definir o estimador de <t 2 num modelo de regressao como sendo 

c 2 _ SQRes (16.25) 

e n - p ’ 

onde p e o numero de parametros do modelo. No caso particular da regressao linear 
simples, p = 2 e 

r2 _ SQRes (16.26) 

sera urn estimador nao-viesado de a], isto e, E(S e 2 ) = a 2 Veja o Problema 32. 

Exemplo 16.2, Continuando o exemplo anterior, obteremos 

S 2 = 1.373/19 = 72,26, S = 8,50 
e 

S e 2 = 563/18 = 31,28, S e = 5,59, 

numeros que sugerem uma diminuigao significativa nos resfduos. Observe que, pas- 
sando de urn modelo com urn parametro para outro com dois, ha uma redugao de 813 
unidades na soma de quadrados residuais. Ou seja, perdendo urn grau de liberdade, 
reduziu-se a soma dos resfduos quadratics em 810 unidades, o que e mais uma evi- 
dencia da vantagem de adogao do segundo modelo. 

16.3.2 Decomposicao da Soma de Quadrados 

Ao passarmos do modelo simples para o modelo de regressao linear, vimos que a 
redugao da soma de quadrados e dada por SQTot - SQRes. Esse lucro e devido a adogao 
do segundo modelo e sera indicado por SQReg, significando a soma dos quadrados 
devida a regressao. Segue-se que 

SQReg = SQTot - SQRes, 


(16.27) 
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ou seja, 

SQTot = SQReg + SQRes. (16.28) 

Observando a Figura 16.3, notamos que vale a seguinte relagao: 

Yi - 7 = (Yi - Yi) + (Yi - y) = §i + (yi - y). (16.29) 

Em palavras, o desvio de uma observagao em relagao a media pode ser decomposto 
como o desvio da observagao em relagao ao valor ajustado pela regressao, mais o 
desvio do valor ajustado em relagao a media. 


Figura 16.3: Representapao grafica dos diversos desvios. 



Elevando-se ao quadrado ambos os membros da igualdade (16.29), tomando-se a soma 
e observando-se que a soma do duplo produto se anula (veja o Problema 31), obtemos 

±(Yi - y) 2 =±(Yi - y) 2 +±ef, (16.30) 

i=1 i=1 i =1 

OU 

SQTot = J(9. - y) 2 + SQRes, (16.31) 

i =1 

do que deduzimos que 

SQReg = X (y - y) 2 . (16.32) 

i =1 

De (16.17) obtemos que 

Yi - y = j3(Xi - X), 

portanto, podemos escrever 

SQReg =/3 2 V(x. - x) 2 . (16.33) 

i =i 

Daqui se pode observar que, quanto maior o valor de p, maior sera a redugao da 
soma dos quadrados dos rest duos. 
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16.3.3 Tabela de Analise de Variancia 

Do mesmo modo como foi feito na segao 15.2, podemos resumir as informagoes 
anteriores numa unica tabela A NOVA, ilustrada na Tabela 16.2. 


Tabela 16.2: Tabela ANOVA para modelo de regressao. 


F.V. 

g.l. 

SQ 

QM 

F 

Regressao 

Resfduo 

1 

n -2 

SQReg 

SQRes 

SQReg = QMReg 
SQRes/(n - 2) = S 2 

QMReg/S 2 

Total 

n- 1 

SQTot 

SQTot/(n-1) = S 2 



Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo, 
usando a estati stica 


R2 SQReg 
SQTot ' 


(16.34) 


definida anteriormente. A estatfstica F sera discutida na segao 16.4. 


Exemplo 16.3. Dos calculos que nos levaram ao modelo (16.18), podemos construir a 
Tabela 16.3. Temos que 


R 2 = 


810 

1.373 


59%. 


Tabela 16.3: Tabela ANOVA para o modelo (16.18). 


F.V. 

g.l. 

SQ 

QM 

F 

Regressao 

1 

810 

810 

25,90 

Resfduo 

18 

563 

31,28 


Total 

19 

1.373 

72,26 



0 modelo proposto diminui a variancia residual em mais da metade e explica 59% 
da variabilidade total. Verificamos, entao, que e vantajosa a adogao do modelo linear 
(16.18) para explicar o tempo medio de reagao ao estfmulo, em fungao da idade. 

A estrategia adotada para verificar se compensa ou nao utilizar o modelo y = a + j8x + e 
e observar a redugao no resfduo quando comparado com o modelo y = /j. + e. Se a 
redugao for muito pequena, os dois modelos serao praticamente equivalentes, e isso 
ocorre quando a inclinagao /3 for zero ou muito pequena, nao compensando usar urn 
modelo mais complexo. Estaremos, pois, interessados em testar a hipotese 

H o: (5 = 0, (16.35) 

o que ira exigir que se coloque uma estrutura de probabilidades sobre os erros. Esse assunto 
sera objeto da proxima segao. A Figura 16.4 ilustra as duas situagoes que podem ocorrer. 
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Na Figura 16.4 (a) temos o caso em que claramente a variavel auxiliar ajuda a prever a 
variavel resposta. Na situagao da Figura 16.4 (b) teremos duvidas se vale a pena ou nao 
introduzir um modelo mais complexo, ganhando muito pouco em termos de explicagao. 


Figura 16.4: Retas ajustadas a dois conjuntos de dados, (a) x explica y; (b) x nao explica y. 



Para a avaliagao final do modelo devemos investigar com mais cuidado o compor- 
tamento dos residuos, o que sera feito na segao 16.5. 

5. Usando os resultados do Problema 1, construa a tabela ANOVA para o modelo z = a + /3x, 
encontrado naquele problema. 

(a) Qual a estimativa S 2 ? E S 2 ? 

(b) Voce acha que a redugao nos residuos foi grande? 

(c) Qual o valor de R 2 ? Interprete esse numero. 

6. Um estudo sobre duragao de certas operagoes esta investigando o tempo requerido (em 
segundos) para acondicionar objetos e o volume (em dm 3 ) que eles ocupam. Uma amostra 
foi observada e obtiveram-se os seguintes resultados: 


Tempo 

10,8 

14,4 

19,6 

18,0 

8,4 

15,2 

11,0 

13,3 

23,1 

Volume 

20,39 

24,92 

34,84 

31,72 

13,59 

30,87 

17,84 

23,22 

39,65 


(a) Faga o diagrama de dispersao dos dados. 

(b) Estime a reta de regressao do tempo de operagao em fungao do volume. 

(c) Construa a tabela ANOVA para o modelo. 

(d) Qual o valor de S 2 ? E pequeno quando comparado com S 2 ? 

(e) Voce acha que conhecer o volume do pacote ajuda a prever o tempo de empacotamento? 

7. Construa a tabela ANOVA para o Problema 2 e interprete os resultados. 

8. Construa a tabela ANOVA com os dados do Problema 3. 

9. Idem para o Problema 4. 
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16.4 Propriedades dos Estimadores 

Iremos agora estudar as propriedades amostrais dos estimadores a e ft, e para isso e 
conveniente voltar ao modelo e as suposigoes adotadas para a variavel aleatoria Y 
sob investigagao. Lembremos que a variavel X e suposta controlada, fixa, e para 
cada valor x de X teremos associada uma distribuigao de probabilidades para Y, como 
ilustra a Figura 16.5 (a), onde supomos que a dispersao e a mesma para cada nfvel 
da variavel X. A Figura 16.5 (b) ilustra o caso que sera considerado aqui, em que 
estas distributes condicionais sao normals, com a mesma variancia. Note que E(Y |x) 
e linear, como estamos considerando neste capftulo. 

Formalmente, o modelo 

Y, = E (Y |x,) + e, = a + /3Xj + e i( i = 1, ..., n 

deve satisfazer as seguintes suposigoes: 

(i) Para cada valor de x i( o erro e i tern media zero e variancia constante <j e 2 ; 

(ii) Se i j, Cov^, e,) =0, isto e, para duas observagoes distintas, os erros sao nao- 
correlacionados. 

Segue-se que 

E (Y i |x i ) = a + j8x. e Var(Y i |x.) = <j e 2 , 
e ainda que Y, e Y, sao nao-correlacionados, para i # j. 


Figura 16.5: (a) medias alinhadas, distribuigoes com a 
mesma variancia; 

(b) medias alinhadas, distributes normais 
com a mesma variancia. 
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16.4.1 Media e Variancia dos Estimadores 

Nesta segao vamos obter a media e a variancia dos estimadores ae|, dados em (16.14). 

Proposigao 16.1. Para o estimador /? temos 

E (j8) = A (16.36) 

Var(^) = f* . (16.37) 

Ei =i(x, - x ) 2 


Prova. Inicialmente, vamos escrever /? de urn modo mais conveniente (veja o Problema 30): 
a _ Z n -i(x, - x)(Yj - Y) _ E" =i(Xj - x)Y| - Y E"=i(Xj - x) 


E" =i(Xi - x ) 2 


Ei =i(Xi - x ) 2 


= EEi(Xj - x)Yj = J (Xj - X) Y = Vw.Y., 

E"=i(Xi - x ) 2 ^Ei-itXi-x ) 2 1 

onde estamos usando a notagao Y (maiuscula) e x (minuscula) para diferenciar o fato 
de que a primeira esta sendo considerada aleatoria e a segunda, fixa; e 


w. = ■ 


X: - X 


EWi =o. 


Ei =i(x, - x ) 2 1=1 

Observe que estamos usando o fato de E"=i(x i -x) = 0 e que 

E w i x i =E w i x i - x E w , =E w i( x i - x ”) 

i =1 i =1 i =1 i =1 

=i (X| - x> ix, - x)=i. 

i=1 Ei =i(Xi - x ) 2 

Usando propriedades da esperanga e variancia de somas de v.a. (veja o Capitulo 8), 
podemos escrever 

E(/3) =E(Ew i Y i ) =E w i E(Y i ) 

i =1 i =1 

= E w i(« + 0X,) = aE w i + ^E w i x i = A 

i =1 i =1 i =1 

o que mostra que o estimador e nao-viesado. Para a variancia, 

Var(/3) =Var(Ew i Y i ) =Ew 2 Var(Y i ), 

i =1 i =1 

pois as observagoes sao nao-correlacionadas, e, portanto, 


Var(^)=Ew 2 cr 2 = cT 2 E 

e o resultado segue. 


i e 

i =1 i=1 


X; - X 


= a 2 


Ei =i(x, - x) 


= l(X;-X) 2 / lEi =l(X. - X) 2 ] 2 ' 












462 


CAPITULO 16 — REGRESSAO LINEAR SIMPLES 


Proposicao 16.2. Para o estimador a temos: 

E (a) = a, 

Var(a) = cr e 2 . ^ i=lX| _ ■ 
nZi =i(Xj - x) 2 


(16.38) 

(16.39) 


Prova Precisaremos dos seguintes resultados (Problema 33): 

Cov(y, j8) = 0, (16.40) 

V( X j-x-) 2 =EXi - nx 2 . (16.41) 

i=1 i=1 

Como 

= a + /3x + — Xe,, 
n i=i 

temos que 

i n 

E (y) = a + fix + — Xe (e.) = a + Bx, 

n i=i 

dado que x e supostamente fixa e nao uma v.a. Tambem, 

Var(y)=A_ 2 ivar( ei )=-^. 

i=i n 

Temos, entao, que 

E (a) = E (y - /3x) = a + j8x - /3x = a, 
e 

Var(a) =Var(y - /3x) = Var(y) +Var(/3x) - 2Cov(y, /3x) 

= Var(y) +x 2 Var(^) - 2xCov(y, fi) 
e usando os diversos resultados obtidos acima, obtemos (16.39). 

16.4.2 Distribuicoes Amostrais dos Estimadores dos Parametros 

Para completar o estudo das propriedades dos estimadores, vamos introduzir uma 
terceira suposigao: 

(iii) Os erros e i sao v.a. com distribuigao normal, isto e, 

e, ~ N(0; <Te), (16.42) 


o que implica 


y ~N(a+j3x i ; a 2 e ). 


( 16 . 43 ) 
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Como p e a sao combinagoes lineares de v.a. normais e independentes, temos o 
seguinte resultado: 

Proposigao 16.3 Os estimadores a e p tern ambos distribuigao normal, com medias e 
variances dadas pelas Proposigoes 16.1 e 16.2, isto e, 



(16.44) 


(16.45) 


Os resultados acima permitem concluir que 


VB x i " x ) 2 ~ N (0, 1), 


(16.46) 


a^a_ In S(x, - x)’ __ N (0> j) (16.47) 

V Ex’ 

16.4.3 Intervalos de Confianca para ae)3 

Substituindo a e por seu estimador S e em (16.46) e (16.47), sabemos que as estatfs- 
ticas resultantes terao distribuigao t de Student, com (n - 2) graus de liberdade, o que 
permitira construir intervalos de confianga para os parametros. 

Proposigao 16.4. As estatisticas 


UP) = ^ VS(x i - x ) 2 


(16.48) 


e 



(16.49) 


tern distri buigao t de Student com (n - 2) graus de liberdade. 

Esse resultado, combinado com os procedimentos de construgao de intervalos de 
confianga ja estudados, nos leva aos seguintes intervalos para a e p, com ydenotando 
o coeficiente de confianga e t^fn - 2) denotando o valor obtido da Tabela V, com (n - 2) 
graus de liberdade: 



(16.50) 


1C(# y) = P ± t x (n - 2)S £ 



(16.51) 
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Exemplo 16.4, Da tabela A NOVA do Exemplo 16.3 podemos retirar as informagoes 
necessarias para construir intervalos de confianga para a e /?. Temos que E x ? = 19.000, 
E(x, - x) 2 = 1.000, e x = 30. 

Temos, tambem, S 2 = 31,28 e, portanto, S e = 5,59. Se y= 0,95, obtemos t^ 95 (18) = 2,101. 
Os intervalos sao dados por: 

1C (a; 0,95) = 80,50 ± (2,101)(5,59)^ = 80,50 ± 11,45, 

IC(j8; 0,95) = 0,90 ± (2,101)(5,59) V 1/1.000 
= 0,90 ± 0,30. 

Ou sej a, 

1C (a; 0,95) = [69,05; 91,95], 

IC[j8; 0,95] = [0,60; 1,20]. 

Este ultimo resultado e mais uma evidencia de que /3 ¥= 0, o que reforga conclu- 
soes anteriores. 

Os intervalos de confianga (16.50) e (16.51) podem ser utilizados para testar 
hipoteses do tipo 

H 0 : a = a 0 , 

H 0 :£ = Ar 

Em particular, temos o resultado: 

Proposigao 16.5 A estatistica para testar H 0 : a = 0 e 

,( & ) = « ,16.52) 

S e V Ex? 

e a estatistica para testar H 0 : /3 = 0 e 

t(^) = | VE(x,- x-) 2 , (16.53) 

e 

cada uma tendo distribuigao t de Student com (n - 2) graus de liberdade. 

Observe que 

mv= ^V* )2 . 

e usando o resultado (16.33) podemos escrever 

mV = (16.54) 

que e a estatistica F que aparece na tabela A NOVA. A ssim, para testar a hipotese H 0 : p = 0, 
pode-se usar a estatistica (16.54), que segue uma distribuigao F (1, n - 2). 
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Exemplo 16.5. Para testar separadamente as hipoteses acima, os valores das estatisti- 
cas correspondentes serao: 



t(j8) = (0,90/5,59) a[L000 = 5,09, 


os quais devem ser comparados com 2,101, que e o valor critico de t(18), no nivel 
de significancia 5%. Vemos que em ambos os casos rejeitamos as hi poteses de que 
os parametros sejam iguais a zero. Comparando o resultado de t(j8) com o valor F da 
tabela A NOVA, constatamos que t 2 (/j) = 25,90 = F, de acordo com o apresentado 
acima. Algumas vezes, para indicar a significancia das estatfsticas, a reta ajustada e 
escrita do seguinte modo: 


y = 80,50 + 0,90x , 
(14,77) (5,09) 


onde entre parenteses aparece o valor de t, para indicar com que intensidade o parametro 
pode ser considerado distinto de zero. 


16.4.4 Intervalo de Confianga para /i[z) e Intervalo de Predicao 


O modelo linear (16.6), estudado ate agora, sera utilizado freqiientemente para 
fazer previsoes da variavel resposta (y) para algum nivel da variavel de controle (x). 
Usando o enunciado do Exemplo 16.1, poderiamos estar interessados em saber qual o 
tempo de reagao aos 28 anos. E importante estabelecer se queremos estimar o tempo 
medio para o grupo etario de 28 anos ou o tempo de reagao provavel para uma pessoa 
de 28 anos. Veremos que a estimagao pontual e a mesma nos dois casos, porem os 
intervalos de "confianga" serao distintos. Para entender bem as diferengas sugerimos 
recordar as solugoes aos exercicios 23, 24 e 25 do Capitulo 15. 

Do modelo (16.3) e do exposto ate agora, temos o seguinte resultado. 

Proposigao 16.6. A distribuigao amostral do estimador (16.15) e dada por 



(16.55) 


Var(^W) = Var(y) =a 2 A- + {x ' ~ x)2 

Ln V( Xi - x) 2 


(16.56) 


Prova, Das proposigoes 16.1 e 16.2 vem: 


E (ju(x.)) = E (a) + E (jS)Xj = a + fk. t = 


o que demonstra a primeira parte da proposigao. De (16.17) temos 


y, = y + yS(Xi - x), 
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portanto 

Var(y) = Var(y) + (x t - x) 2 Var(/3) + 2(x, - x) Cov(y, p), 
mas de (16.40), Cov(y, p) = 0, e de (16.37) vem 


v/ /~\ ol , / Ol T 1 , (X; - x) 2 

Var(y.) = — + (x, - x) 2 --— = <j 2 — + —-!- — , 

n S( x i-x ) 2 Ln S( x i- x ") 2j 

o que conclui a prova. 

Com a proposigao acima e substituindo <r e 2 por seu estimador S 2 e facil verificar 
que o Intervalo de Confianga para /u(x) sera dado por: 


IC(M(x); 7) = y, ± t y (n - 2) s/l+ J Xi ~ X Z ( 16 . 57 ) 

Vejamos agora como construir urn intervalo de predigao para uma futura observa- 
gao. Imitando a proposta do Problema 15.24, uma futura observagao para urn dado 
nfvel x f e dada por 

Y f (x) = y/(x f ) + £f 

e o estimador sera 

Y f = y f + e, = y f , 


onde substituimos o valor desconhecido e f pelo seu valor esperado que e zero. 
Da expressao anterior, calculamos: 


Var(Y f ) =Var(y f ) +Var(e f ) = o\ 


1 + 


(Xi - x) 2 


n V( Xi - x) 2 J 


+ o\ , 


ou seja, 


Var(Y f ) = ct 2 


! + _1 + (Xi - x) 2 


(16.58) 


n V( Xl - x) 2 

Substituindo a] pelo seu estimador S 2 , teremos urn estimador da variancia, e 
analogamente o intervalo de predigao abaixo: 

(Xf-x) 2 (16.59) 


IP(Y f ;7)=y± VWl+4 + 


K x i 


Exemplo 16.6. Qual o tempo de reagao aos 28 anos? 

A estimativa pontual e dada por: 

9(28) = 80,5 + 0,9(28) = 105,7. 

Considerando como resposta adequada o tempo de reagao medio do grupo de 28 
anos, podemos escrever o Intervalo de Confianga para a media, ou seja: 
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IC(ju(28); 0,95) = 105,7 ± (2,101)(5,59) / — + (28 ~ 30)2 = 

^ 20 1000 

= 105,7 ± 2,7 = ] 103,0; 108,4[. 

Se quisessemos saber dentro de que intervalo 95% das futuras observagoes iriam 
estar, construiriamos o Intervalo de Predigao: 


I 


_L + (28 - 30) 2 
20 1000 


IP(Y f ; 0,95) = 105,7 ± (2,101)(5,59) l + 


= 105,7 ± 12,1 = ]93,6; 117,8[. 


10. Usando a tabela ANOVA, construida no Problema 5: 

(a) Construa o IC(J3; 95%). 

(b) Construa o IC(a; 90%). 

(c) Use a estatistica F para testar a hipotese FI Q : fi - 0. 

(d) Construa o 1C para a acuidade visual media do grupo etario de 28 anos. 

(e) E qual seria o Intervalo de Predigao da acuidade visual das pessoas de 28 anos? 

11. Com as informagoes do Exemplo 15.1, e a ANOVA construida no Problema 9, voce diria 
que a acuidade visual ajuda a prever o tempo de reagao dos individuos? Que estatistica 
voce usou para justificar seu argumento e por que? 

1 2. Investigando a relagao entre a quantidade de fertilizante usado (x) e a produgao de soja 


(y) numa estagao experimental com 20 canteiros, obteve-se a equagao de M Q : 

y = 15,00 + 2,83x. 

(3,22) (1,65) 

Com esses resultados voce diria que a quantidade de fertilizante influi na produgao? Por que? 

16.5 Analise de Residuos 

Para verificar se um modelo e adequado, temos que investigar se as suposigoes feitas 
para o desenvolvimento do modelo estao satisfeitas. Para tanto, estudamos o compor- 
tamento do modelo usando o conjunto de dados observados, notadamente as discrepancies 
entre os valores observados e os valores ajustados pelo modelo, ou seja, fazemos uma 
analise dos residuos. 

0 i-esimo resfduo e dado por 



(16.60) 


Lembremos que ja utilizamos estes residuos para obter medidas da qualidade e dos 
estimadores dos parametros do modelo. Agora iremos estudar o comportamento indi¬ 
vidual e conjunto destes residuos, comparando com as suposigoes feitas sobre os verdadeiros 
erros e r Existem varias tecnicas formais para conduzir essa analise, mas aqui iremos 
ressaltar basicamente metodos graficos. Para mais detalhes, ver Draper e Smith (1998). 
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Uma representagao grafica bastante util e obtida plotando-se pares (x., q), i = 1, n. Outras 
vezes, e de maior utilidade fazer a representagao grafica dos chamados resfduos padronizados, 


y, - y f = 

s s 

J e 


(16.61) 


plotando-se os pares (x., 1). Observe que a forma dos dois graficos sera semelhante, 
havendo apenas uma mudanga de escala das ordenadas nos dois casos. Por isso, iremos 
usar a primeira representagao, indicando no grafico a posigao do valor S e . 

Outro resfduo usado e o chamado residuo estudentizado, definido por 

3 . (16.62) 

S ,VT^v„ 

onde v ii = 1/n + (x. - x) 2 /D(x. - x) 2 . 0 denominador de (16.62) e o desvio padrao de 
e r Nao iremos explorar aqui a analise feita com esse tipo de residuo. 


Exemplo 16.7. Voltemos ao Exemplo 15.1. Os resfduos do modelo (16.18) estao reprodu- 
zidos na Tabela 16.4, dos quais foram obtidos os demais. Os dois primeiros resfduos estao 
representados na Figura 16.6. Note que os dois graficos sao parecidos e levarao ao mesmo 
tipo de diagnostico. Comentarios adicionais sobre esse exemplo serao feitos abaixo. 


Tabela 16.4: Resfduos para o modelo (16.18). 


Idade 


t. 

f. 

Idade 


t. 

g 

20 

-2,5 

-0,45 

-0,49 

30 

1,5 

0,27 

0,28 

20 

-6,5 

-1,16 

-1,26 

30 

-7,5 

-1,34 

-1,37 

20 

7,5 

1,34 

1,45 

35 

0,0 

0,0 

0,0 

20 

1,5 

0,27 

0,29 

35 

-7,0 

-1,25 

-1,30 

25 

-5,0 

-0,89 

-0,92 

35 

6,0 

1,07 

1,11 

25 

1,0 

0,18 

0,19 

35 

-4,0 

-0,72 

-0,75 

25 

7,0 

1,25 

1,30 

40 

-4,5 

-0,80 

-0,86 

25 

-2,0 

-0,36 

0,37 

40 

-5,5 

-0,98 

-1,06 

30 

8,5 

1,52 

1,56 

40 

9,5 

1,70 

1,84 

30 

-1,5 

-0,27 

-0,28 

40 

-0,5 

-0,09 

-0,10 


Figura 16.6: Resfduos para o Exemplo 16.1. (a) e =y. - <j:, (b) resfduos padronizados. 
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Obtido o grafico dos resfduos, precisamos saber como identificar possfveis inade- 
quagoes. Apresentamos na Figura 16.7 alguns tipos usuais de graficos de resfduos. A 
Figura 16.7 (a) e a situagao ideal para os resfduos, distribufdos aleatoriamente em 
torno do zero, sem nenhuma observagao muito discrepante. 


Figura 1 6.7: Graficos de resfduos. (a) situagao ideal; (b), (c) modelo nao-linear; (d) elemento atfpico; (e), 
(f), (g) heterocedasticidade; (h) nao-normalidade. 
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Nas situagoes (b) e (c) temos possfveis inadequagoes do modelo adotado, e as 
curvaturas sugerem que devemos procurar outras fungoes matematicas que expliquem 
melhor o fenomeno. 

A Figura 16.7 (d) mostra a existencia de um elemento discrepante, edeveser investigada 
a razao desse desvio tao marcante. Pode ser um erro de medida, ou a discrepancy pode 
ser real. Em situagoes como essa, em que ha observagoes muito diferentes das demais, 
metodos chamados robustos tern de ser utilizados. 

Os casos (e), (f) e (g) indicam claramente que a suposigao de homoscedasticidade 
(mesma variancia) nao esta satisfeita. Em (h), parece haver maior incidencia de obser¬ 
vagoes nos extremos, mostrando que a suposigao de normalidade nao esta satisfeita. 

Analisados os resfduos e diagnosticada uma possfvel transgressao das suposigoes, 
devemos propor alteragoes que tornem o modelo mais adequado aos dados e as supo¬ 
sigoes feitas. 

A verificagao da hipotese de normalidade pode ser realizada fazendo-se um histograma 
dos resfduos ou um grafico de q x q, como explicado no Capftulo 3. 

Exemplo 16.7. (continuagao) A analise dos resfduos do modelo (16.18) mostra que 
esses nao violam as suposigoes de media zero e variancia comum. A Figura 16.8 mostra 
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o histograma dos resfduos, e a Figura 16.9 mostra um grafico q xq. Esse grafico, feito 
com o SPIus, coloca nos eixos das ordenadas os valores crescentes dos e, e no eixo das 
abscissas os quantis de uma normal padrao. Se os valores fossem de uma normal, eles 
deveriam se dispor ao longo de uma reta. Notamos que tanto o histograma quanto o 
grafico de quantis mostram que os resfduos nao sao normalmente distribufdos. 


Figura 16.8: Histograma dos resfduos do modelo (16.18). 



-10 -5 0 5 10 15 

Resfduos 


Figura 16.9: Grafico q x q (normalidade) para os resfduos 
do modelo (16.18). 



Quando a suposigao de variancia comum nao estiver satisfeita, usualmente faz-se 
uma transformagao da variavel resposta y, ou da preditora x, ou de ambas. Para detalhes, 
ver Bussab (1986) e a segao 16.6. 

Exemplo 16.8. Num processo industrial, alem de outras variaveis, foram medidas: X = 
temperatura media (°F) e Y = quantidade de vapor. Os dados estao na Tabela 16.5 
(Draper & Smith, 1998, Appendix A). 
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Tabela 16.5: Temperatura e quantidade de vapor de um 
processo industrial. 


N s 

x r 

y, 

§ 

1 

35,3 

10,98 

0,174 

2 

29,7 

11,13 

-0,123 

3 

30,8 

12,51 

1,345 

4 

58,8 

8,40 

-0,531 

5 

61,4 

9,27 

0,547 

6 

71,3 

8,73 

0,797 

7 

74,4 

6,36 

-1,326 

8 

76,7 

8,50 

0,998 

9 

70,7 

7,82 

-0,161 

10 

57,5 

9,14 

0,106 

11 

46,4 

8,24 

-1,680 

12 

28,9 

12,19 

0,873 

13 

28,1 

11,88 

0,499 

14 

39,1 

9,57 

-0,933 

15 

46,8 

10,94 

1,052 

16 

48,5 

9,58 

-0,173 

17 

59,3 

10,09 

1,199 

18 

70,0 

8,11 

0,073 

19 

70,0 

6,83 

-1,207 

20 

74,5 

8,88 

1,202 

21 

72,1 

7,68 

-0,189 

22 

58,1 

8,47 

-0,517 

23 

44,6 

8,86 

-1,204 

24 

33,4 

10,36 

-0,598 

25 

28,6 

11,08 

-0,261 


Fonte: Draper e Smith (1998). 


0 grafico de dispersao e a reta de M Q estao na Figura 16.10 (a). A reta estimada de 
M Q e dada por 


y. = 9,424 - 0,0798(x, - 52,6), (16.63) 

ou ainda 

y, = 13,623 - 0,0798x,, (16.64) 

de modo que a = 13,623 e $ = -0,0798. Os resfduos e, = y, - y, estao na quarta coluna 
da Tabela 16.5 e seu grafico contra X; na Figura 16.10 (b). 0 grafico q x q para verifi- 
car a suposigao de normalidade esta na Figura 16.10 (c). Observamos que ha varios 
pontos afastados da reta. 
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Figure! 16.10 (a) grafico de dispersao com reta ajustada; 

(b) residuos VS temperatura; 

(c) grafico q x q (normalidade). 






emas 


13. Com o modelo linear ja obtido para a acuidade visual como fungao da idade, construa 
os tipos de residuos apresentados no Exemplo 16.6. Represente-os graficamente. Voce 
observa alguma transgressao das suposigoes basicas? 
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14. Para cada grafico de resfduo abaixo, indique qual a possfvel transgressao observada. 


e i‘ 

e i‘ 

• 

• 

• • 

• • • 

• • 

• • . • • , 

•:. . . • 

• • • • 

e i - 

m • * X 

. * • 

• . • • 

• 

• • 

(a) 

e i- 

• 

• 

• 

. • 

• • 

• . • • • 

. * X 

• • 

• • . 

• 

• 

• 

• • 

(b) 

• 

• * • • 


• • • • 

• • • 

(C) 

* . * 

(d) 


15. Abaixo estao os valores da variavel preditora (x), os residuos observados depois do ajuste 
do modelo e a ordem em que os dados foram obtidos. 


Preditor 

11 

20 

14 

22 

12 

25 

15 

Residuo 

-1 

-2 

3 

-3 

-1 

5 

0 

Ordem 

9 

6 

13 

1 

7 

14 

8 


Preditor 

14 

19 

21 

18 

22 

16 

21 

Residuo 

0 

3 

-2 

2 

-5 

0 

1 

Ordem 

3 

12 

4 

11 

2 

10 

5 


(a) Verifique se existe alguma possivel transgressao das suposigoes, analisando o grafico (x i; e,). 

(b) Faga o grafico do residuo contra a ordem do experimento. Voce observa alguma 
inconveniencia? 


16.6 Alguns Modelos Especiais 

Nesta segao introduziremos alguns modelos particulares simples e que sao de interesse 
pratico. Iniciamos com o modelo que teoricamente passa pela origem. Depois, consideramos 
modelos nao-lineares, mas que podem ser linearizados por meio de alguma transformagao. 

16.6.1 Reta Passando pela Origem 

Em algumas situagoes temos razoes teoricas (ou ditadas pelas peculiaridades do 
problema a analisar) para supor que o modelo deva ser do tipo 

Yi = fix, + ej, i = 1.n. 


(16.65) 
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Com as mesmas suposigoes anteriores e observada uma amostra (x if y t ), I = 1, n, 
e facil ver que o EM Q de p e 

« _ Z-=i X iVi (16.66) 

Deixamos a cargo do leitor verificar como ficam os resultados obtidos anterior- 
mente para o modelo complete nesse caso particular. Por exemplo, 

E (j8) = A 

Var(/3) = 


S-iXf 


Exemplo 16.9. A mensuragao exata (Y) de uma substancia do sangue, por meio de uma 
analise quimica, e muito cara. Urn novo metodo mais barato resulta na medida X, que 
supostamente pode ser usada para prever o valor de Y. Nove amostras de sangue foram 
obtidas e avaliadas pelos dois metodos, obtendo-se as medidas abaixo. 


X 

119 

155 

174 

190 

196 

233 

272 

253 

276 

Y 

112 

152 

172 

183 

192 

228 

263 

239 

263 


Algumas estatisticas obtidas sao: 

n = 9, = 1.868, S.y, = 1.804, 

Si x i y i = 396.933, = 411.436, SiY 2 = 383.028. 


Vamos ajustar o modelo (16.65) a esses dados. Obtemos 
p = 396.933/411.436 = 0,9648, 
resultando no modelo ajustado 

% =0,9648x i( i = 1, 2.9. 

E facil ver que S e 2 = 5,9136 e S e = 2,4318. Para testar a hipotese H 0 : p = 0, usamos 
a estatistica 

t(P) 

que resulta ser igual a t(j8) = (0,9648/2,4318)V411.436 = 254,48, o que claramente leva 
a rejeigao de H 0 . Urn intervalo de confianga para p, com coeficiente de confianga 95% e 

0,9648 ± (2,306) = 0,9648 ± 0,0087, 

V 411.436 


ou seja, 


IC(A 0,95) = [0,9561; 0,9735], 
Os dados e a reta ajustada estao na Figura 16.11. 
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Figura 16.11 : Dados e reta ajustada para o Exemplo 16.8. 



16.6.2 Modelos Nao-Lineares 

Quando usamos modelos de regressao, ou qualquer outro tipo de modelo, a situagao 
ideal e aquela em que o pesquisador, por razoes teoricas inerentes ao problema real sob 
estudo, pode sugerir a forma funcional da relagao entre duas ou mais variaveis. Na pratica, 
isso nem sempre acontece. M uitas vezes o pesquisador esta interessado em usar tecnicas 
de regressao para explorar modelos convenientes sugeridos pelos dados observados. 

Como vimos, o primeiro passo para investigar o tipo de modelo a ser adotado e a 
representagao grafica dos dados, a qual pode sugerir a forma da curva relacionando as 
variaveis, alem de fornecer outras informagoes (veja o final da segao 16.1). Por exemplo, 
com os dados da Tabela 16.6 obtemos o diagrama de dispersao da Figura 16.12. Nota- 
mos claramente a inadequagao da reta como modelo, sendo que provavelmente uma 
relagao exponencial do tipo 

f(x) = ae^ x (16.67) 


seja mais adequada. Urn modelo que pode, entao, ser sugerido, e 

y, = + £., i =1, ..., n. (16.68) 

Tabela 16.6: Taxa de Inflapao no Brasil de 1961 a 1979. 


Ano 

t 

Inflapao (Y) 

Y* = log Y 

1961 

-9 

9 

2,2 

1963 

-7 

24 

3,2 

1965 

-5 

72 

4,3 

1967 

-3 

128 

4,8 

1969 

-1 

192 

5,2 

1971 

1 

2 77 

5,6 

1973 

3 

373 

5,9 

1975 

5 

613 

6,4 

1977 

7 

1.236 

7,1 

1979 

9 

2.639 

7,9 
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Figures 16.12: Dados de inflacao no Brasil (pontos) e 
modelo exponencial ajustado (+). 



Suponha que queiramos estimar os parametros a e ft pelo metodo de minimos 
quadrados. Devemos minimizar 

S(a, P) =ief =i(y, - ae^) 2 . (16.69) 

i =1 i=1 

Derivando S em relagao a a e /3 e igualando a zero, obtemos as duas equagoes 

a v e 2 ^ = Vy.e^, 

i=i i =i 

a 2 Vx.e* = o'Vx.y i eK (16.70) 

i=i i=i 

A solugao desse sistema de equagoes nao-lineares exige o uso de procedimentos 
de otimizagao nao-lineares, como Newton-Raphson, Gauss-Newton, "scoring" e outros. 
Ou seja, os pontos de maximo da fungao S sao obtidos numericamente, dada a impos- 
sibilidade de termos solugoes analiticas para as equagoes (16.70). Mas devemos dizer 
que essa e a regra, mais do que a excegao, em problemas encontrados na pratica. 
Portanto, a utilizagao desses procedimentos de otimizagao e urn requisite importante 
para estudantes de areas como estatfstica, economia, engenharia etc. 

Neste livro, vamos nos limitar a tratar de alguns casos onde transformagoes das 
variaveis sob estudo permitirao o uso de urn modelo linear simples. 

Suponha que a fungao (16.67) seja apropriada para os dados da Tabela 16.6. Con- 
sidere o modelo 

y, = ae^e;, i = 1, ..., n. (16.71) 

Observe que nesse modelo os erros e. entram de forma multiplicativa e nao aditiva, 
como no caso do modelo (16.6). Considerando, agora, o logaritmo (na base e) de 
ambos os lados de (16.71) e chamando 

y* = log y i , a* = log a, e* = loge i( (16.72) 

podemos escrever o modelo na forma 

y* = of* + /3x i + £*, i = 1, ..., n. (16.73) 

Note que esse modelo e linear em a* e /?, e temos que supor que os erros e { sejam 
positivos; do contrario, nao podemos tomar logaritmos deles. Por outro lado, os erros 
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e* podem ser negativos, positivos ou nulos. Portanto, para o modelo linear (16.73) 
podemos fazer as suposigoes usuais das segoes anteriores. 

Exemplo 16.10. Utilizando os dados da Tabela 16.6, devemos, inicialmente, calcular 
os logaritmos naturais da variavel Y. Note que nesse exemplo a variavel explicativa e o 
tempo, convenientemente codificado. Na Figura 16.13 temos o diagrama de dispersao 
dos dados transformados e da reta ajustada, a saber 

y* = 5,27 + 0,28t, t = -9.9. (16.74) 

A analise de tal modelo pode ser conduzida como antes. Veja o Problema 35. 
Observe que o modelo original ajustado e 

% = 194,42 • e°' 28t , i = 1. 10, (16.75) 

pois a = e 5 ' 27 . Essa curva esta representada na Figura 16.12. Os resfduos do modelo 
(16.74), transformado, e do modelo (16.75), original, sao dados na Tabela 16.7 e nas 
Figuras 16.14 e 16.15, respectivamente. Note que em ambos os casos os resfduos nao 
parecem ser aleatorios, havendo curvaturas, sugerindo a possibilidade de urn modelo 
com termos quadratics ou cubicos, por exemplo. 


Figura 16.13: Diagrama de dispersao para o loga- 
ritmo da inflapao com reta ajustada. 



Tabela 16.7: Residuos para os modelos linear e exponencial. 


t 

Residuos 

Reta 

Residuos 

Exoonencial 

-9 

-0,55 

-6,643 

-7 

-0,11 

-3,386 

-5 

0,43 

24,057 

-3 

0,37 

44,067 

-1 

0,21 

45,061 

1 

0,05 

19,757 

3 

-0,21 

-77,348 

5 

-0,27 

-175,412 

7 

-0,13 

-145,251 

9 

0,11 

222,632 
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Figure! 16.14: Resfduos da reta ajustada ao logaritmo 
da inflagao versus ano. 



Figura 16.15: Resfduos do modelo exponencial ajus- 
tado aos dados originais versus ano. 



Os histogramas e graficos q x q para normalidade dos resfduos estao nas Figuras 
16.16 e 16.17. Notamos que o histograma e assimetrico, mostrando claramente o valor 
correspondente a t = 9. Como ha poucos pontos, a analise de resfduos fica prejudicada; 
o grafico q x q mostra os pontos nao muito proximos de retas. 


Figura 16.16: Histogramas: (a) resfduos reta ajustada ao log (infla<pao); 

(b) resfduos modelo exponencial. 
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Figura 16.17: Graficos q x q dos resfduos: (a) reta; (b) exponencial. 



16.7 Regressao Resistente 

Nesta segao vamos considerar apenas o caso de regressao linear simples. Ou seja, 
temos os valores observados (x if y), i = 1, n e queremos ajustar o modelo (16.6). 

Notamos que os estimadores decern (16.14) sao baseados em x, y e desvios em 
relagao a essas medias. 

A regressao resistente baseia-se em medianas, em vez de medias. Inicialmente, dividi- 
mos o conjunto dos n pontos em tres grupos, de tamanhos aproximadamente iguais, basea¬ 
dos principalmente na ordenagao da variavel x e no grafico de dispersao. Chamemos esses 
grupos de E (de esquerda), C (de centra) e D (de direita). Se n = 3k, cada grupo tera k pontos. 
Se n = 3k + 1, colocamos k pontos nos grupos E e D e k +1 pontos no grupo C. Final- 
mente, se n = 3k + 2, colocamos k + 1 pontos nos grupos E e D e k pontos no grupo C. 

Para cada grupo obtemos urn ponto resumo, formado pela mediana dos x.ea 
mediana dos y. naquele grupo. Denominemos esses pontos por 

(x E , y E ), (x c , y c ), (x D , y D ). 

Na Figura 16.18 temos urn exemplo com tres grupos com k = 3 em cada grupo. 


Figura 16.18: Reta resistente com tres grupos. 
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Os estimadores de /3 e a sao dados, respectivamente, por 


= y D - y 

0 x d - X l 


a 0 = - t(y E - b 0 x E ) + (y c - b o x c) + (y D - Wi- 


(16.76) 

(16.77) 


A reta resistente ajustada e 

y i =a 0 +b 0 x |1 i = 1, ..., n. (16.78) 

Os modelos robustos necessitam, muitas vezes, recorrer a processos interativos para 
obter estimadores mais eficientes. Isso deve ser feito quando os residuos nao forem bem 
comportados. Nao abordaremos esse topico neste livro. Veja Hoaglin et al. (1983) para 
mais informagao. 


Exemplo 16.11. Voltemos aos dados do exemplo 16.1. Como n = 20 = 3 x 6 + 2, os grupos E, 
C e D serao formados com 7, 6 e 7 pontos, respectivamente. Observando a Figura 16.1, 
consideramos os grupos como seguem: 


Grupo E 


i 

2 

1 

4 

3 

5 

8 

6 

Idade 

20 

20 

20 

20 

25 

25 

25 

Y 

92 

96 

100 

106 

98 

101 

104 


Grupo C 


i 

7 

12 

10 

11 

9 

14 

Idade 

25 

30 

30 

30 

30 

35 

Y 

110 

100 

106 

109 

116 

105 


Grupo D 


i 

16 

13 

15 

18 

17 

20 

19 

Idade 

35 

35 

35 

40 

40 

40 

40 

Y 

108 

112 

118 

112 

113 

117 

127 


Os pontos resumidores sao: 


(x E , y E ) =(20, 100), 
(x c , y c ) =(30, 107, 5), 
(x D , y D ) =(40, 112), 

logo, as estimativas dos coeficientes serao 
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a n = —[(100 - 0,6(20)) + (107,5 - 0,6(30)) + (112 - 0,6(40))] = 88,3 
3 


de modo que a reta resistente ajustada sera 

y, = 88,3 + 0,6x i , 

que esta representada na Figura 16.19, justamente com a reta de MQ, dada em (16.18). 


Figura 16.19: Reta de MQ (— ) e reta resistente (-) 

para o Exemplo 16.11. 


120 - 



20 25 30 35 40 

Idade 


Na proxima segao daremos um exemplo em que as duas retas, a de M Q e a 
resistente, sao bastante diferentes. 

16.8 Exemplos Computacionais 

Nesta segao vamos considerar dois exemplos: um sobre a aplicagao a dados reais do mer- 
cado de agoes e outro aplicando regressao resistente a um conjunto de dados com um outlier. 

Exemplo 16.12. Retomemos o Exemplo 4.13, no qual consideramos as variaveis Y = 
prego de agao da Telebras e X = fndice da Bolsa de Valores de Sao Paulo, cada uma com 
n = 39 observagoes. O grafico de dispersao das duas variaveis esta na Figura 16.20, 
juntamente com a reta de mfnimos quadrados. O modelo ajustado e 


= -5,57 + 0,93x,, 


e no Quadro 16.1 temos a safda do programa M initab. Nesta, encontramos: 

(a) Estimativas dos coeficientes cce/3, juntamente com as estimativas dos desvios padroes 
respectivos (1,085 e 0,0297). 

(b) Valores da estatistica t, para testar as hipoteses nulas de que os coeficientes sao 
nulos (denotadas por T), juntamente com o valor-p (P = 0,000), mostrando que 
devemos rejeitar essas hi poteses nulas. 
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(c) Uma tabela de analise de variancia, com o valor F = 969,44, com 1 e 37 g.l., e o 
valor-p P = 0,000. 

(d) 0 valor de R 2 = 96,3%, que nos diz que o modelo ajustado explica a maior parte da 
variabilidade dos dados. 

Figura 16.20: Grdfico de dispersao das variaveis X e Y , 
para o Exemplo 16.12 e reta ajustada. 



Quadro 16.1 : Analise do Exemplo 16.1 2. Minitab. 


Regression Analysis 

The regression equation is 

Tel = - 5.57 + 0.925 Ibv 





Predictor 

Coef 

StDev 

T 

P 


Constant 

-5.570 

1.085 

-5.13 

0.000 


Ibv 

0.92491 

0.02971 

31.14 

0.000 


S = 0.7614 

R-Sq = 

96.3% R- 

Sq (adj) 

= 96.2% 


Analysis of Variance 





Source 

DF 

SS 

MS 

F 

P 

Regression 

1 

561.99 

561.99 

969.44 

0.000 

Residual Error 

37 

21.45 

0.58 



Total 

38 

583.44 





Na Figura 16.21 temos graficos que nos auxiliam a fazer urn diagnostico do modelo 
ajustado. Na Figura 16.21(a) temos o grafico q x q dos quantis dos resfduos contra os 
quantis da normal padrao, para avaliar a normalidade dos resfduos. Na Figura 16.21(b) 
temos o grafico dos resfduos contra a ordem das observagoes e, na Figura 16.21(d), o 
grafico dos resfduos contra os valores ajustados. Finalmente, na Figura 16.21(c) temos 
o histograma dos resfduos. 0 que voce pode dizer desses graficos? 
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Figure! 16.21: Graficos apos o ajuste do modelo: analise de reslduos, Exemplo 16.11. Minitab 



Exemplo 16.13. Considere os dados da Tabela 16.8, provenientes da mensuragao da 
velocidade do vento no aeroporto de Philadelphia (EUA), sempre a uma hora da manha, 
para os primeiros 15 dias de dezembro de 1974 (Graedel e Kleiner, 1985). 


Tabela 16.8: Velocidade do vento no aeroporto de Philadelphia. 


t 

v , 

1 

22,2 

2 

61,1 

3 

13,0 

4 

27,8 

5 

22,2 

6 

7,4 

7 

7,4 

8 

7,4 


t 

v , 

9 

20,4 

10 

20,4 

11 

20,4 

12 

11,1 

13 

13,0 

14 

7,4 

15 

14,8 


Observamos no diagrama de dispersao da Figura 16.22 o valor atipico 61,1 desta- 
cado dos demais pontos. A reta de M Q ajustada aos dados e 

v t = 30,034 - l,454t, t = 1, 2. 15, (16.79) 

e e "puxada" por esse ponto. Essa reta esta representada por uma linha cheia na figura. 
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Para ajustar a reta resistente, consideramos tres conjuntos de cinco pontos. E facil 
ver que obtemos 

v t = 21,56 - 0,92t, t = 1, 2. 15 (16.80) 

tambem representada por uma linha tracejada na figura. 


Fig urn 16.22 Reta de MQ (-) e resistente (-) para os da¬ 

dos de velocidade do vento. 



16.9 Problemas e Complementos 

16. Com o modelo t - a+ fix para a acuidade visual, desenvolvido nos problemas anteriores: 

(a) construa o 1C de 95% para a acuidade visual media dos indivfduos com 18 anos 
de idade; 

(b) construa o 1C de 95% para a acuidade visual esperada para individuos com 30 anos 
de idade; e 

(c) construa o 1C com 95% de confianga para a acuidade visual media dos individuos 
com 80 anos. Comente o resultado. 

17. No Problema 6, qual o tempo medio esperado para empacotar um volume com 30 dm 3 ? 

18. Os dados abaixo referem-se a meses de experiencia de dez digitadores e o numero de 

erros cometidos na digitagao de determinado texto. 


Meses x 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

Erros y 

30 

28 

24 

20 

18 

14 

13 

10 

7 

6 


Dados: V x. = 60, V x f = 460, V y. = 170, V X| y. = 768 

(a) Represente graficamente esse conjunto de dados. 

(b) Assumindo que um modelo de regressao linear e adequado, determine os coeficientes 
da equagao pelo metodo dos mfnimos quadrados. 
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(c) Represente a reta de regressao no grafico feito anteriormente. 

(d) Qual a posigao do ponto (x, y) em relagao a reta de regressao? 

(e) Qual o numero esperado de erros para um digitador com 5 meses de experiencia? 

19. Os dados abaixo correspondem as variaveis renda familiar e gasto com alimentagao 
numa amostra de dez famflias, representadas em salarios minimos. 


Renda familiar (x) 

Gasto com alimentagao (y) 

3 

1,5 

5 

2,0 

10 

6,0 

20 

10,0 

30 

15,0 

50 

20,0 

70 

25,0 

100 

40,0 

150 

60,0 

200 

80,0 


Obtenha a equagao de regressao y - a + fix. 

(a) Qual a previsao do gasto com alimentagao para uma famflia com renda de 
170 reais? 

(b) Qual a previsao do gasto para famflias com excepcional renda, por exemplo 1.000 
reais? Voce acha esse valor razoavel? Por que? 

(c) Se voce respondeu que o valor obtido em (b) nao e razoavel, encontre uma explica- 
gao para o ocorrido. (Sugestao: interprete a natureza das variaveis X e Y e o compor- 
tamento de Y para grandes valores de X.) 

20. Aanalise do lucro anual de uma agao, como fungao linearda sua cotagao media anual, 
forneceu os resultados abaixo com alguns campos em branco. Preencha as lacunas e 
interprete os resultados. 


ANOVA 


Fonte 

g.l. 

SQ 

QM 

F 

Regressao 

Resfduo 


1209 



Total 

11 

1766 




Modelo 


Descrigao 

Coef. 

EP 

t 

valor-p 

LI (95%) 

LS (95%) 

Intercepto 

49,00 

22,00 


0,055 

-1,34 


Cotagao 

0,30 

0,07 


0,003 


0,45 


21. Um jornal quer verificar a eficacia de seus anuncios na venda de carros usados. A 
tabela abaixo mostra o numero de anuncios publicados e o correspondente numero de 
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carros vendidos por seis companhias que usaram apenas esse jornal como veiculo 
de propaganda. 


Companhia 

A 

B 

C 

D 

E 

G 

Anuncios 

74 

45 

48 

36 

27 

16 

Carros vendidos 

139 

108 

98 

76 

62 

57 


Ajustando-se a reta de regressao, obteve-se y = l,516x +27,844 e F = 70,17. Como voce 
argumentaria com a companhia G para que ela aumentasse o numero de anuncios, 
aumentando a venda de carros? 


22. O custo de manutengao de tratores parece aumentar com a idade do trator. Os seguin- 
tes dados foram obtidos (X representa idade em anos e Y o custo por seis meses): 

(a) Ajuste o modelo y = j8 0 + /3jX e teste a hipotese de interesse para o nfvel a = 0,10. 

(b) Devemos procurar urn modelo mais adequado? 

(c) Determine uma "previsao" para o custo de manutengao para tratores com 5 anos de 
idade e obtenha um intervalo de confianga com 7=0,90. 

(d) Teste as hipoteses H 0 : J3 g - 300, H g : p Q > 300, para o nfvel a = 0,05. 


X 

Y 

0,5 

163 

0,5 

182 

1,0 

978 

1,0 

466 

1,0 

549 

4,0 

495 

4,0 

723 

4,0 

681 

4,5 

619 

4,5 

1.049 

4,5 

1.033 

5,0 

890 

5,0 

1.522 

5,0 

1.194 

5,5 

987 

6,0 

764 

6,0 

1.373 


23. Origem do Termo Regressao. O uso dotermo regressao deve-se a Francis Galton, por 
volta de 1885, quando investigava relagoes entre caracterfsticas antropometricas de 
sucessivas geragoes. Uma de suas constatagoes era de que "cada peculiaridade de um 
Fiomem e transmitida aos seus descendentes, mas, em media, numa intensidade menor". 
Por exemplo: embora pais com baixa estatura tendam a ter filhos tambem com baixa 
estatura, estes tern altura media maior do que a altura media de seus pais. O mesmo 
ocorre, mas em diregao contraria, com pais com estatura alta. Essa afirmagao pode ser 
mais bem compreendida observando-se os dados usados por Galton, e representados 
parcialmente na Figura 16.23. Se as caracterfsticas permanecessem as mesmas de 
















16.9 PROBLEMAS E COMPLEMENTOS 


487 


geragao para geragao, esperar-se-ia que a reta de regressao tivesse seu coeficiente 
angular proximo de 1. Em sua analise, Galton encontrou o valor 0,516, mostrando que 
a reta tende para aquela paralela ao eixo X e passando pela media (y =y). A esse 
fenomeno de a altura dos filhos mover-se em diregao a altura media de todos os ho- 
mens ele chamou de regressao, e as vezes de reversao, tendo aparecido num artigo de 
1885, no Journal of the Anthropological Institute, com o tftulo "Regression Towards Mediocrity 
in Hereditary Stature" — Regressao para a Mediocridade em Estaturas Hereditarias; 
mediocridade, aqui, referindo-se a media. 


Figura 16.23: Media da altura de filhos contra altura com- 
posta dos pais, baseada no estudo de Galton. 



Os dados abaixo referem-se a outro experimento de Galton, dentro da mesma investiga- 
gao, procurando estudar a relagao entre o diametro, em centesimos de polegada, de 
ervilhas-pais (x) e ervilhas-filhas (y). Analise a reta de regressao para os dados e interprete 
os coeficientes. 


Diametros em 0,01 de polegadas de sementes de ervilhas 


Pais (x) 

15,0 

16,0 

17,0 

18,0 

19,0 

20,0 

21,0 

Filhos (y) 

15,4 

15,7 

16,0 

16,3 

16,6 

17,0 

17,3 


24. Um pesquisador deseja verificar se um instrumento para medir concentragao de acido 
latico no sangue esta bem calibrado. Para isso ele tomou 20 amostras de concentragoes 
conhecidas e determinou a respectiva concentragao atraves do instrumento. Como uma 
analise de regressao poderia auxiliar o pesquisador? Modele o problema acima, espe- 
cificando as variaveis independente e dependente e as hipoteses de interesse. 

25. Os dados abaixo correspondem a duas variaveis X e Y, onde: 

X = concentragao conhecida de acido latico e 

Y = concentragao de acido latico registrada pelo instrumento 
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X 

Y 

1 

1,1 

0,7 

1,8 

0,4 


3 

3,0 

1,4 

4,9 

4,4 

4,5 

5 

7,3 

8,2 

6,2 



10 

12,0 

13,1 

12,6 

13,2 


15 

18,7 

19,7 

17,4 

17,1 



Ajuste o modelo y = (5 0 + /3 X X e teste a hipotese H Q : = 1 contra a alternativa 

H 1 : /3, ¥= 1. Tire conclusoes com base no resultado desse teste. 


26. Sejam X: volume de precipitagao pluvial 

Y: produgao de trigo por alqueire 

(a) Voce acha que um modelo do tipo Y =a + /3x +e seria adequado para essas variaveis? 
Por que? 

(b) Caso esse modelo nao seja adequado, esboce um grafico do tipo de relagao que 
voce esperaria existir entre X eY. 

27. Num experimento foram aplicadas tres doses diferentes de insulina em coelhos e foram 
observadas quedas na quantidade de agucar no sangue (variavel Y) depois de determi- 
nados pertodos. Nesse tipo de experimento, e usual admitir-se que a relagao entre queda 
de agucar e o logaritmo da dose da insulina e linear. 


log da dose (X ) 


0,36 

0,56 

0,76 

17 

64 

62 

21 

48 

72 

49 

34 

61 

54 

63 

91 


Sao dados: 

= 6,72; Vxf = 4,0832; V x .y. = 385,1 6; 

Vy. = 636; V y 2 = 38.602; x = 0,56; y = 53. 

Faqa um estudo completo sobre o ajuste do modelo y - f3 0 + fij, + £a esses dados. 

28. A industria farmaceutica MIMI vende um remedio para combater resfriado. Apos dois 
anos de operagao, ela coletou as seguintes informagoes trimestrais: 


Trimestre 

Vendas 

(10.000) 

(Y) 

Despesas 

c/Propaganda 

(X) 

Temperatura 

Media do Trimestre 
(Z) 

1 

25 

11 

2 

2 

13 

5 

13 

3 

8 

3 

16 

4 

20 

9 

7 

5 

25 

12 

4 

6 

12 

6 

10 

7 

10 

5 

13 

8 

15 

9 

4 
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V y = 128; Yy 2 = 2.352; ]Tyx = 1.101; 

V x = 60; Vx 2 = 522; Y yz = 897; 

V z =69; V Z 2 = 7 79; V xz = 397. 

(a) Faqa os graficos (x, y) e (z, y). 

(b) Encontre as retas y = a + bx e y = C + dz. 

(c) Qual das duas voce acha estatisticamente mais adequada para prever as vendas? 
Por que? 

(d) De acordo com a decisao acima, qual a previsao de vendas para urn trimestre em 
que a despesa de propaganda sera 8 e a temperatura prevista 10? 

29. Para construir um modelo linear relacionando a quantidade de fertilizantes usada (x) e a 
produtividade obtida (y) com uma amostra de sete canteiros, o pesquisador obteve as 
seguintes estatfsticas: 

x = 400, y =60, s x = 216,02, s y = 13,84 e r =0,922. 

(a) Encontre as estimativas do modelo y = a + /lx. 

(b) Construa a tabela ANOVA. 

(c) Analise os resultados. 

30. Mostre que o coeficiente angular ft da formula (16.14) pode ser escrito como 

s _ H(x, - x)(Yi - y) = _^, 

I(x r x-) 2 S x 2 

Prova. De (16.14) temos: 

a _ XxjYj - nxy 
Y x 2 - nx 2 

Mas, 

X(x,- x)(y j - y) =T(x,y j - xy i - yx ; + xy) 

= S x iYi- xTyr y Tx, + nxy 
= Vxy, - nxy - nxy +nxy =Tx i y i - nxy, 

De modo analogo, 

E(x,- x) 2 =Ex 2 -nx 2 . 

Definindo-se s =-—^fx, - x)(y - y) e 

y n - 1 



a demonstraqao esta completa. 
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31 . Demonstre a formula (16.30), ou seja: 

S(y,- VV= 1 (%- y) 2 +Xe 2 . 


Prova. De (16.29) 

Yr y =Yi- Yi- y=e i +(y i - y), 

e elevando ao quadrado ambos os membros e somando-os, obtemos 

£(y,- y) 2 =Xe 2 +S(y i -y) 2 + 2E(y i - y)e.. 

Mas, como 

y, = y +/3(Xj - x) e =y, - y - /J(x. - x), 

teremos 

- y) =E[(y, - y) - /3(x i - x)][y3(x, - x)] 

= )3l(y i -y)(x i -x)- i 3 2 I(x i -x-) 2 . 

Usando a expressao de /3, do Problema 30, obtemos 

S^ty,- y) =0, 

o que demonstra a expressao. 

32. Mostre que E (Sg) = c 2 . 


Prova. Vamos decompor a demonstragao em tres partes: 

(a) Vejamos quanto vale E (SQTot). Temos: 

Y | =a + /3x i +e j( i = 1, 2,n; ej-NfO.cr 2 ). 
Somando as n parcelas em cada membro e dividindo por n, obtemos: 

Y=a + /3x + e, e ~ N (0; <7 2 /n) ; 

e, ainda, 

Y.-Y =/3(x i - x) +e.- e, 

SQTot =y(Y r Y) 2 

=/3 2 y(x,-x-) 2 +X( e,-e) 2 
+ 2pY(x r x)(e r e). 

Calculando a esperanga, teremos: 

E (SQTot) =/3 2 (y(x i -x-) 2 + E[V(e i -e) 2 ] 

+ 2pY(x r x)E (e j - e) 

= /3 2 y(x i -x-) 2 + E[y(e i -e) 2 ]+0. 
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Mas 


E[S(e r e) 2 ]=(n-l)E 


Xte- e) 2 

n - 1 


= (n - Da], 


pois e equivalente a variancia de uma amostra aleatoria simples de tamanho n, 
retirada da populagao N (0, a]), e ja vimos que essa e a expressao de urn estimador 
nao viesado da variancia c 2 . Entao: 

E(SQTot) = y8 2 S( X i - x) 2 + (n - l)cr 2 . 


(b) Vamos calcular agora E(SQReg). De (16.33), 

SQReg =/3 2 T(x i - x) 2 


e de (16.37), 


Var 

Mas da definigao de variancia, sabemos que 

Var(y3) = E(j3 2 ) - E 2 (/3) = E(y3 2 ) - p 2 
pois E (/3) = p. Combinando estas expressoes, teremos: 

E [SQReg] = Y (x, - x) 2 E Cp 2 ) = [Var(j3) + £] Y( X| - x) 2 


_ {x( x i- x ) 2 + ^ 2 }^ (x i- x)2 

= °l + P 2 Z(x,-x-) 2 . 


Explicitamente, E[SQReg] = ct 2 + /1 2 Y(x, - x) 2 . 

(c) Finalmente, como 

SQRes =SQTot- SQReg, 

E [SQRes] =[/? 2 Y(Xi - x) 2 + (n - l)cr e 2 ] - [a 2 e +p 2 Y( Xi - x) 2 ], 
E [SQRes] =(n - 2)c 2 , 


a partir de que podemos escrever: 

ou seja, 

c 2 _ S(yi-Yi ) 2 
n - 2 

e estimador nao viesado de c^. 

33. Prove que Cov(Y, p) = 0. 

(a) Inicialmente vamos provar que, se X e Y sao independentes, U = aX + bY e 
V =mX +nY, entao 


Cov(U, V ) = amVar(X ) +bnVar(Y ). 
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Sabemos queCov(U,V)=E(UV)-E(U)-E(V), 

E (U ) =aE (X ) +bE (Y ), 

E (V) = mE (X) +nE (Y), 

E (U V) =E[(aX +bY HmX + nY )] 

= amE (X 2 ) +anE (XY ) +bmE (XY ) +bnE (Y 2 ). 

Substituindo na expressao da covariancia, teremos: 

Cov(U, V ) = amE (X 2 ) +bnE (Y 2 ) +(an +bm)E (XY ) 

- [amE 2 (X ) +bnE 2 (Y) +(an +bm)E (X )E (Y)] 

= am[E (X 2 ) - E 2 (X )] +bn[(E (Y 2 ) - E 2 (Y )] 

+ (an +bm)[E (XY ) - E (X )E (Y )] 

= amVar(X)+bnVar(Y), 

e o ultimo termo desaparece, pois as variaveis sao independentes. A expressao pode 
ser generalizada quando X 1; X 2 ,X n sao independentes, com 

U =a 1 X 1 +a 2 X 2 + ...+a n X n = Ta i X |I 
V=b 1 X 1 + b 2 X 2 + ...+b n X n =Ib i X i ; 
entao, Cov(U, V) = Ya, bjVarfX;). 

Quando Var(X|) = a 1 , temos: 

Cov(U, V) = o- 2 Ya i b i . 

(b) Cov(Y, ft) =0. 

Sabemos que: 

Y =^ZY,=Z-jY i =i;a i Y il coma i =^-, 

B =Vw.Y , com w. = " x , 

11 ' S(Xi-X ) 2 

entao 

Cov(Y, ft) =Cov(Za i Y i ,yw i Y i ) =Sa i w i Var(Y i ) 

= <7 e 2 Xa i w [ =0, 

pois Xa^Wj = (l/n)^W | =0, o que demonstra a propriedade. 

34. Obtenha (16.64) e os graficos que seguem. 

35. Para o Exemplo 16.10, obtenha a tabela ANOVA e os intervalos de confianqa para a* e 
p, ajustando o modelo (16.71). 

36. Ainda para o Exemplo 16.10, obtenha o intervalo de confianga para a. 

37. Para o exemplo da reaqao ao estfmulo: 

(a) construa o 1C para a media das pessoas com 28 anos de idade; 
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(b) construa o IP para uma futura pessoa de 28 anos de idade; 

(c) compare e ressalte as diferengas dos dois resultados. 

38 . Construa o grafico das regioes de previsao da media e individual (1 - a- 0,95) para o 
modelo desenvolvido no Problema 3 e complementado no Problema 8. Aquetemperatu- 
ra a potencia media ja poderia ser considerada como zero? Compare com a resposta 
dada na questao (d) do Problema 3. 

39. Sejam Y = despesa com viagem, X = duragao da viagem (em dias). Para uma amostra 
com n = 102 obteve-se: 

£ Xi = 510; Yy. = 7.140; Yxf = 4.150; Yxy, = 54.900; Yy? = 740.200; x = 5; y = 70. 

(a) Obter a reta y = a +/3x j . 

(b) Qual o significado pratico deae^? 

(c) Uma viagem ira durar sete dias. Quanto o vendedor deve levar para que exista 
apenas uma chance em dez de Ihe faltar dinheiro? 
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C 0 N J U N T 0 S D E 


DADOS 


A seguir apresentamos varios conjuntos de dados, que serao referenciados no texto 
pela sigla CD acompanhada de um nome identificador. 

CD-Brasil: Dados sobre o Brasil 

CD-M unicipios: Populates de M unicfpios do Brasil 

CD-Notas: Notas em Estatistica 

CD-Poluigao: Dados de Poluigao de Sao Paulo 

CD-Temperaturas: Temperaturas M edias M ensais 

CD-Salarios: Salarios para Quatro Profissoes 

CD-Vefculos: Estatfsticas sobreVefculos 

CD-PIB: Produto Interno Bruto do Brasil 

CD-M ercado: Pregos deAgoes daTelebras e I BOV ESPA 

CD-Placa: Indices de Placa Bacteriana 

1. Dados sobre o Brasil 

Dados de superffcie (em km 2 ), populagao estimada e densidade (hab/km 2 ) das 
unidades federativas (UF) do Brasil, por regiao. 

Fonte: IBGE, Contagem da Populagao, 2007. 


Regioes 

UF 

Superffcie 

Populapao 

Densidade 

Norte 

RO 

237.576,167 

1.453.756 

6,12 


AC 

164.165,250 

653.385 

3,99 


AM 

1.559.161,810 

3.221,940 

2,07 


RR 

224.298,980 

395.725 

1,76 


PA 

1.247.689,515 

7.065.573 

5,66 


AP 

142.814,585 

587.311 

4,11 


TO 

277.620,914 

1.243.627 

4,48 


Subtot. 

3.853.327 

14.623.317 

3,79 

Nordeste 

MA 

331.983,293 

6.118.995 

18,43 


PI 

251.529,186 

3.032.435 

12,06 


CE 

148.825,602 

8.185.250 

55,0 


RN 

52.796,791 

3.013.740 

57,08 


PB 

56.439,838 

3.641.397 

64,52 


PE 

98.311,616 

8.486.638 

86,32 


AL 

27.767,661 

3.037.231 

108,38 


SE 

21.910,348 

1.939.426 

88,52 


BA 

564.692,669 

14.080.670 

24,94 


Subtot. 

1.554.257 

51.535.782 

33,16 
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1. Dados sobre o Brasil (cont.) 


Regioes 

UF 

Superflcie 

Populapao 

Densidade 

Sudeste 

MG 

586.528,293 

19.273.533 

32,86 


ES 

46.077,519 

3.351.669 

72,74 


RJ 

43.696,054 

15.420.450 

352,90 


SP 

248.209,426 

39.827.690 

160,46 


Subtot. 

924.511 

77.873.342 

84,23 

Sul 

PR 

199.314,850 

10.284.503 

51,6 


SC 

95.346,181 

5.866.487 

61,53 


RS 

281.748,583 

10.582.287 

37,56 


Subtot. 

576.410 

26.733.877 

46,38 

Centro 

MS 

357.124,962 

2.265.813 

6,34 

/Oeste 

MT 

903.357,908 

2.854.642 

3,16 


GO 

340.086,698 

5.647.035 

16,6 


DF 

5.801,937 

2.455.903 

423,29 


Subtot. 

1.606.372 

13.223.393 

8,23 

Brasil 

Total 

8.514.876,599 

183.989.711 

21,61 


2. Populacoes de Municipios do Brasil 

Populates (em 10.000 habitantes) dos 30 municipios mais populosos do Brasil. 
Fonte: IBGE, Contagem da Populagao, 1996. 


N s 

Municfpio 

Populapao 

N s 

Municlpio 

Populapao 

1 

Sao Paulo (SP) 

988,8 

16 

Nova Iguapu (RJ) 

83,9 

2 

Rio de Janeiro (RJ) 

556,9 

17 

Sao Luis (MA) 

80,2 

3 

Salvador (BA) 

224,6 

18 

Maceio (AL) 

74,7 

4 

Belo Horizonte (MG) 

210,9 

19 

Duque de Caxias (RJ) 

72,7 

5 

Fortaleza (CE) 

201,5 

20 

Sao Bernardo do Campo (SP) 

68,4 

6 

Brasilia (DF) 

187,7 

21 

Natal (RN) 

66,8 

7 

Curitiba (PR) 

151,6 

22 

Teresina (PI) 

66,8 

8 

Recife (PE) 

135,8 

23 

Osasco (SP) 

63,7 

9 

Porto Alegre (RS) 

129,8 

24 

Santo Andre (SP) 

62,8 

10 

Manaus (AM) 

119,4 

25 

Campo Grande (MS) 

61,9 

11 

Belem (PA) 

116,0 

26 

Joao Pessoa (PB) 

56,2 

12 

Goiania (GO) 

102,3 

27 

Jaboatao (PE) 

54,1 

13 

Guarulhos (SP) 

101,8 

28 

Contagem (MG) 

50,3 

14 

Campinas (SP) 

92,4 

29 

Sao Jose dos Campos (SP) 

49,7 

15 

Sao Gonpalo (RJ) 

84,7 

30 

Ribeirao Preto (SP) 

46,3 
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3. Notas em Estatistica 

Notas de 100 alunos do curso de Economia da FEA-USP, em prova da disciplina 
Introdugao a Probabilidade e a Estatistica, 1999. 

Fonte: Autores. 


3,5 

4,0 

5,5 

6,0 

5,0 

5,5 

5,0 

5,5 

4,0 

10,0 

6,5 

9,5 

4,0 

7,0 

7,5 

3,0 

4,5 

5,0 

2,5 

6,0 

5,0 

6,5 

3,5 

4,5 

8,5 

4,0 

8,0 

7,0 

6,0 

7,5 

8,5 

6,0 

9,0 

6,0 

6,5 

7,5 

5,5 

6,5 

8,0 

8,5 

4,5 

7,5 

8,0 

3,0 

4,0 

8,0 

4,5 

5,5 

6,0 

6,0 

7,5 

3,5 

3,0 

7,0 

1,5 

4,5 

10,0 

5,5 

2,5 

10,0 

4,0 

6,5 

7,5 

5,5 

7,0 

7,5 

6,0 

6,5 

6,5 

5,5 

6,5 

5,0 

5,5 

7,5 

8,0 

6,5 

5,0 

7,0 

6,0 

5,5 

3,0 

5,0 

3,5 

6,0 

6,5 

6,0 

8,0 

5,5 

7,5 

6,0 

2,5 

7,5 

9,0 

6,0 

6,5 

3,5 

4,5 

7,0 

5,0 

5,0 


4. Dados de Poluicao de Sao Paulo 

Dados de poluentes na cidade de Sao Paulo, l 2 jan. a 30 abr. 1991. 

CO: monoxido de carbono (ppm); 0 3 : ozonio (ppb) 

Temp.: temperatura (°C); Umid.: umidade relativa do ar ao meio-dia (%) 
Fonte: Saldiva et al. (1994). 


Data 

CO 

o, 

Temp. 

Umid. 

Data 

CO 

o a 

Temp. 

Umid. 

Jan. 1 

6,6 

113,6 

15,2 

56 

21 

6,2 

134,3 

17,0 

57 

2 

6,2 

115,2 

15,5 

55 

22 

6,1 

82,1 

20,0 

61 

3 

7,9 

130,4 

16,8 

62 

23 

7,3 

233,2 

20,1 

61 

4 

8,6 

110,4 

16,4 

96 

24 

6,6 

72,0 

18,9 

68 

5 

8,8 

107,2 

15,2 

62 

25 

6,2 

96,8 

18,8 

70 

6 

6,4 

86,4 

16,0 

64 

26 

5,1 

61,6 

15,9 

94 

7 

6,9 

120,0 

16,3 

63 

27 

6,1 

32,8 

15,2 

97 

8 

7,9 

150,4 

17,8 

68 

28 

5,7 

35,2 

17,0 

63 

9 

8,2 

149,0 

18,1 

71 

29 

6,7 

87,2 

18,6 

61 

10 

8,7 

117,3 

18,3 

64 

30 

6,5 

85,6 

20,0 

63 

11 

6,3 

59,7 

19,2 

69 

31 

5,7 

34,7 

19,9 

88 

12 

6,3 

27,2 

17,2 

76 






13 

6,3 

119,2 

15,1 

62 






14 

6,4 

120,8 

18,9 

78 






15 

7,7 

26,7 

19,2 

90 






16 

7,9 

50,1 

18,3 

73 






17 

7,9 

35,2 

16,0 

94 






18 

7,7 

40,0 

15,5 

78 






19 

6,9 

96,0 

16,0 

62 






20 

6,2 

142,0 

18,0 

66 
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4. Dados de Poluicao de Sao Paulo (cont.) 


Data 

CO 

o. 

Temp. 

Umid. 

Data 

CO 

o. 

Temp. 

Umid. 

Fev. 1 

5,8 

22,9 

18,9 

78 

15 

6,2 

172,7 

19,0 

70 

2 

6,2 

83,9 

17,8 

73 

16 

6,7 

65,2 

19,0 

80 

3 

5,5 

204,2 

17,0 

75 

17 

6,1 

149,2 

18,0 

63 

4 

6,7 

192,5 

17,9 

66 

18 

6,7 

100,0 

16,7 

76 

5 

7,9 

99,7 

18,0 

65 

19 

7,4 

128,4 

15,8 

65 

6 

6,4 

182,3 

17,8 

63 

20 

5,9 

135,7 

16,0 

58 

7 

6,9 

141,0 

18,2 

72 

21 

5,5 

121,2 

17,0 

99 

8 

6,4 

87,2 

18,0 

85 

22 

6,1 

85,2 

17,6 

57 

9 

5,2 

34,4 

18,5 

96 

23 

7,2 

48,4 

16,9 

86 

10 

5,7 

40,0 

18,9 

81 

24 

5,6 

81,6 

15,2 

61 

11 

4,7 

60,8 

20,0 

67 

25 

7,2 

72,8 

15,2 

71 

12 

7,3 

82,0 

17,9 

68 

26 

6,9 

164,9 

17,0 

63 

13 

6,2 

98,9 

18,0 

67 

27 

6,9 

137,1 

17,0 

58 

14 

6,7 

200,0 

17,0 

60 

28 

7,7 

82,4 

17,3 

62 


Data 

CO 

o, 

Temp. 

Umid. 

Data 

CO 

o s 

Temp. 

Umid. 

Mar. 1 

6,3 

38,8 

18,9 

60 

17 

6,6 

92,8 

15,8 

59 

2 

7,7 

30,4 

18,8 

76 

18 

7,7 

97,1 

16,9 

55 

3 

6,4 

26,7 

18,1 

90 

19 

10,3 

32,0 

18,9 

97 

4 

6,4 

33,6 

18,3 

69 

20 

7,5 

56,0 

18,1 

65 

5 

7,9 

24,0 

18,1 

89 

21 

11,4 

91,7 

19,0 

74 

6 

6,2 

12,3 

18,0 

75 

22 

9,5 

38,9 

17,8 

88 

7 

6,8 

12,3 

18,0 

99 

23 

7,8 

33,1 

17,1 

75 

8 

8,0 

129,2 

21,0 

69 

24 

7,4 

34,7 

18,0 

78 

9 

8,3 

105,6 

19,0 

65 

25 

8,9 

140,8 

18,6 

77 

10 

7,8 

116,8 

19,0 

64 

26 

9,5 

27,7 

16,0 

92 

11 

6,9 

85,3 

19,0 

59 

27 

10,1 

18,8 

14,2 

94 

12 

7,5 

56,0 

19,0 

61 

28 

12,5 

24,0 

14,0 

96 

13 

8,4 

61,9 

20,1 

62 

29 

6,2 

33,1 

14,8 

83 

14 

8,1 

50,7 

18,0 

77 

30 

7,9 

28,8 

16,3 

91 

15 

6,6 

40,5 

16,9 

64 

31 

7,6 

18,7 

17,0 

81 

16 

7,1 

48,5 

15,2 

53 







Data 

CO 

o, 

Temp. 

Umid. 

Data 

CO 

o 3 

Temp. 

Umid. 

Abr. 1 

9,1 

27,2 

17,8 

56 

16 

7,8 

29,9 

18,5 

69 

2 

7,0 

42,7 

16,4 

69 

17 

11,6 

20,3 

18,0 

59 

3 

7,2 

62,4 

16,0 

62 

18 

6,9 

19,7 

19,0 

64 

4 

7,8 

68,3 

16,0 

64 

19 

7,8 

13,3 

16,1 

83 

5 

9,1 

16,5 

14,8 

80 

20 

6,9 

34,7 

13,1 

70 

6 

9,7 

122,1 

12,3 

57 

21 

4,7 

40,0 

13,8 

62 

7 

6,3 

104,0 

14,9 

66 

22 

7,9 

150,2 

14,8 

58 

8 

10,8 

35,2 

17,6 

65 

23 

7,4 

120,7 

13,2 

60 

9 

12,0 

150,3 

17,9 

70 

24 

8,5 

28,8 

14,9 

50 

10 

8,9 

48,8 

16,6 

60 

25 

8,5 

9,1 

15,5 

97 

11 

7,6 

38,4 

18,9 

52 

26 

9,0 

2,7 

15,9 

82 

12 

9,4 

59,7 

19,0 

56 

27 

8,9 

11,2 

14,1 

75 

13 

11,9 

39,6 

19,8 

82 

28 

10,3 

33,1 

14,5 

58 

14 

10,3 

63,5 

19,1 

57 

29 

6,1 

34,4 

14,0 

64 

15 

8,3 

92,0 

18,4 

60 

30 

7,0 

53,6 

15,1 

73 
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5. Temperaturas Med f as Mensais 

Temperaturas medias mensais, em graus centfgrados, de janeiro de 1976 a dezem- 
bro de 1985, em Cananeia e Ubatuba, Sao Paulo. 

Fonte: Boletim Climatologico, n s 6, 1989, IO-USP. 


Ano 

Cananeia 

Ubatuba 

Ano 

Cananeia 

Ubatuba 

1976 

25,2 

27,1 

1980 

24,4 

26,1 


24,3 

25,3 


25,0 

26,6 


24,2 

25,8 


26,4 

27,7 


21,4 

23,7 


23,6 

24,4 


19,8 

21,6 


21,7 

23,0 


17,0 

20,0 


18,2 

20,5 


17,2 

19,3 


17,6 

20,1 


17,6 

20,2 


17,8 

20,3 


20,2 

20,2 


17,3 

19,7 


21,6 

21,3 


20,2 

21,5 


22,5 

23,7 


22,2 

22,6 


24,0 

25,5 


24,6 

25,6 

1977 

25,3 

26,4 

1981 

25,0 

25,9 


26,4 

27,4 


26,2 

27,0 


24,9 

26,3 


24,3 

24,7 


21,8 

23,8 


22,3 

22,9 


21,0 

22,3 


21,9 

22,3 


19,3 

20,8 


18,2 

19,9 


20,8 

22,6 


17,1 

19,0 


19,6 

21,6 


18,0 

20,2 


20,2 

21,6 


19,5 

21,4 


21,6 

22,5 


19,4 

20,7 


22,5 

23,3 


23,2 

23,4 


24,0 

24,1 


23,6 

23,8 

1978 

24,8 

25,9 

1982 

23,8 

24,3 


25,2 

25,8 


25,0 

25,9 


24,3 

25,5 


23,9 

23,7 


21,6 

22,9 


21,6 

22,1 


19,2 

21,5 


19,9 

20,1 


17,4 

19,8 


20,3 

20,3 


18,9 

21,4 


18,8 

20,3 


17,5 

20,8 


18,7 

20,8 


19,7 

21,8 


19,7 

20,8 


21,6 

22,3 


20,6 

21,5 


22,9 

23,7 


22,4 

24,3 


23,9 

24,7 


23,8 

23,8 

1979 

22,9 

24,0 

1983 

25,9 

26,4 


24,5 

25,3 


25,9 

26,6 


23,2 

24,2 


24,1 

23,5 


21,8 

23,2 


22,6 

18,9 


19,3 

22,3 


20,9 

18,0 


16,6 

19,6 


16,9 

15,3 


16,5 

19,2 


17,2 

14,7 


18,8 

21,7 


17,9 

14,4 


18,1 

20,5 


17,1 

16,2 


22,0 

22,5 


20,4 

19,9 


21,7 

22,5 


23,5 

22,6 


24,1 

24,5 


24,5 

23,3 
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5. Temperaturas Medias Mensais (cont.) 


Ano 

Cananeia 

Ubatuba 

Ano 

Cananeia 

Ubatuba 

1984 

26,2 

25,6 

1985 

24,0 

23,8 


26,6 

25,6 


25,5 

26,2 


24,7 

23,3 


25,3 

25,1 


22,2 

19,1 


23,8 

24,5 


21,8 

19,4 


20,1 

21,6 


19,5 

20,1 


18,0 

19,8 


18,3 

19,0 


18,0 

19,8 


16,2 

19,0 


19,1 

20,1 


18,3 

18,3 


19,2 

20,2 


21,4 

22,0 


21,6 

22,2 


22,3 

22,5 


22,6 

22,9 


23,0 

23,1 


24,0 

23,9 


6. Said os 

Salarios, em 1979 (em francos sulgos), para quatro profissoes, em 30 cidades de 
diferentes pafses. 

Fonte: "Prices and Salaries A round The World", 1979/1980. Uniao dos Bancos 


Suigos, Zurique. 


Cidade 

Prof. Sec. 

Mecanico 

Administrador 

Eng. Eletr. 

Amsterda 

34.125 

26.542 

59.280 

47.730 

Atenas 

11.025 

12.456 

31.980 

18.870 

Bogota 

4.725 

3.806 

14.040 

14.430 

Bruxelas 

28.350 

25.528 

59.280 

33.855 

Buenos Aires 

5.775 

6.574 

21.060 

36.075 

Caracas 

11.550 

20.068 

45.240 

42.180 

Chicago 

33.600 

39.790 

60.060 

48.285 

Cid. Mexico 

6.825 

8.304 

28.860 

22.200 

Dublin 

18.375 

13.840 

23.400 

25.530 

Estocolmo 

28.875 

25.950 

54.600 

33.855 

Genebra 

56.700 

37.022 

71.760 

53.835 

Hong-Kong 

11.550 

5.822 

20.280 

17.205 

Istambul 

4.725 

6.228 

13.260 

12.210 

Londres 

20.745 

17.646 

31.200 

21.090 

Los Angeles 

32.550 

36.330 

59.280 

46.065 

Madri 

14.700 

12.110 

32.760 

31.635 

Manila 

2.100 

1.730 

20.280 

4.440 

Milao 

12.600 

13.494 

17.160 

31.080 

Montreal 

29.400 

23.528 

51.480 

34.410 

Nova lorque 

27.300 

32.870 

67.080 

53.280 

Paris 

24.150 

15.916 

40.560 

43.845 

Rio de Janeiro 

7.350 

8.650 

53.040 

42.735 

San Francisco 

32.025 

39.946 

65.520 

46.065 

Sao Paulo 

9.450 

11.072 

74.470 

29.970 

Sinaapura 

8.925 

5.190 

24.960 

8.325 

Sydney 

28.350 

20.068 

34.320 

31.080 

Tel Aviv 

7.875 

9.688 

14.040 

14.430 

Toquio 

30.450 

16.954 

63.180 

34.410 

Toronto 

29.925 

25.950 

44.460 

39.960 

Zurique 

52.500 

34.600 

78.000 

55.500 
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7. Estati'sticas sobre Vefculos 

Dados sobre 30 vefculos novos, nacionais (N) e importados (I) em margo de 1999. 
Prego em dolares, comprimento em metros e motor em CV. 

Fonte: Folha deS. Paulo, 14/3/1999. 


Velculo 

Preipo 

Comprimento 

Motor 

N/l 

Asia Towner 

9.440 

3,36 

40 

1 

Audi A3 

38.850 

4,15 

125 

1 

Chevrolet Astra 

10.532 

4,11 

110 

N 

Chevrolet Blazer 

16.346 

4,60 

106 

N 

Chevrolet Corsa 

6.176 

3,73 

60 

N 

Chevrolet Tigra 

12.890 

3,92 

100 

1 

Chevrolet Vectra 

13.140 

4,47 

110 

N 

Chrysler Neon 

31.640 

4,36 

115 

1 

Dodge Dakota 

11.630 

4,98 

121 

N 

Fiat Fiorino 

6.700 

4,16 

76 

N 

Fiat Marea 

12.923 

4,39 

127 

N 

Fiat Uno Mille 

5.257 

3,64 

57 

N 

Fiat Palio 

6.260 

3,73 

61 

N 

Fiat Siena 

7.780 

4,10 

61 

1 

Ford Escort 

10.767 

4,20 

115 

1 

Ford Fiesta 

6.316 

3,83 

52 

N 

Ford Ka 

5.680 

3,62 

54 

N 

Ford Mondeo 

33.718 

4,56 

130 

1 

Honda Civic 

14.460 

4,45 

106 

N 

Hyundai Accent 

21.500 

4,12 

91 

1 

Peugeot 106 

13.840 

3,68 

50 

1 

Renault Clio 

13.700 

3,70 

74 

1 

Toyota Corolla 

15.520 

4,39 

116 

N 

Toyota Perua 

24.632 

4,40 

96 

N 

VWGol 

6.340 

3,81 

54 

N 

VWGolf 

22.200 

4,15 

100 

1 

VW Parati 

9.300 

4,08 

69 

N 

VW Polo 

12.018 

4,14 

99 

1 

VW Santana 

11.386 

4,57 

101 

N 

VW Saveiro 

7.742 

4,38 

88 

N 


8. Produto Interno Bruto do Brasil 

Dados anuais do PIB, de 1861 a 1986; indices relativos a 1949. 


Ano 

PIB 

Ano 

PIB 

Ano 

PIB 

Ano 

PIB 

1861 

4.57 

1893 

9.38 

1925 

43.64 

1957 

155.71 

1862 

5.04 

1894 

9.14 

1926 

44.83 

1958 

167.70 

1863 

5.18 

1895 

8.80 

1927 

47.51 

1959 

177.09 

1864 

5.35 

1896 

8.12 

1928 

54.28 

1960 

194.27 

1865 

5.71 

1897 

7.33 

1929 

52.51 

1961 

214.28 

1866 

5.65 

1898 

6.89 

1930 

47.99 

1962 

225.63 

1867 

5.14 

1899 

6.98 

1931 

39.45 

1963 

229.02 

1868 

5.05 

1900 

8.08 

1932 

39.40 

1964 

235.66 

1869 

5.61 

1901 

9.14 

1933 

42.44 

1965 

242.02 

1870 

6.48 

1902 

10.17 

1934 

51.18 

1966 

254.37 
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8. Produto Interno Bruto do Brasil (cont.) 


Ano 

PIB 

Ano 

PIB 

Ano 

PIB 

Ano 

PIB 

1871 

6.56 

1903 

10.48 

1935 

58.04 

1967 

266.58 

1872 

6.55 

1904 

11.34 

1936 

63.79 

1968 

291.37 

1873 

6.72 

1905 

12.47 

1937 

66.35 

1969 

317.59 

1874 

7.71 

1906 

13.76 

1938 

68.54 

1970 

347.77 

1875 

7.88 

1907 

14.45 

1939 

67.43 

1971 

386.99 

1876 

7.98 

1908 

16.01 

1940 

67.53 

1972 

433.62 

1877 

7.30 

1909 

17.81 

1941 

65.07 

1973 

494.29 

1878 

7.32 

1910 

20.56 

1942 

66.03 

1974 

538.96 

1879 

7.38 

1911 

24.29 

1943 

66.30 

1975 

567.05 

1880 

7.88 

1912 

26.75 

1944 

68.24 

1976 

624.37 

1881 

7.62 

1913 

26.00 

1945 

75.01 

1977 

652.71 

1882 

6.86 

1914 

22.91 

1946 

84.48 

1978 

683.46 

1883 

6.65 

1915 

20.84 

1947 

87.30 

1979 

749.82 

1884 

6.54 

1916 

21.07 

1948 

93.76 

1980 

799.61 

1885 

7.02 

1917 

21.96 

1949 

100.00 

1981 

772.85 

1886 

8.07 

1918 

24.60 

1950 

106.44 

1982 

779.94 

1887 

8.94 

1919 

28.47 

1951 

112.83 

1983 

760.20 

1888 

9.25 

1920 

30.39 

1952 

115.70 

1984 

803.53 

1889 

9.59 

1921 

31.23 

1953 

118.59 

1985 

869.90 

1890 

9.64 

1922 

33.76 

1954 

130.57 

1986 

941.26 

1891 

9.35 

1923 

39.11 

1955 

139.59 



1892 

9.15 

1924 

43.60 

1956 

144.05 




9. Mercado 

Pregos de fechamento de agoes da Telebras (multiplicados por 1000) e indice diario da Bolsa 
de Valores de Sao Paulo (dividido por 100), de I s de janeiro de 1995 a 29 de junho de 1995. 
Fonte: Bolsa de Valores de Sao Paulo. 


Mes 

Dia 

Telebras 

Indice 

Mes 

Dia 

Telebras 

Indice 

Mes 

Dia 

Telebras 

Indice 

Jan. 

2 

34,99 

43,19 

Fev. 

1 

31,34 

39,90 

Mar. 

2 

20,96 

29,89 


3 

33,31 

40,98 


2 

30,78 

38,98 


3 

21,42 

29,88 


4 

32,09 

39,68 


3 

31,44 

39,44 


6 

20,40 

28,67 


5 

32,56 

40,37 


6 

30,59 

38,30 


7 

18,43 

26,16 


6 

30,31 

38,27 


7 

28,63 

36,37 


8 

16,84 

23,63 


9 

28,91 

36,28 


8 

27,60 

35,56 


9 

15,06 

21,38 


10 

26,10 

32,70 


9 

26,38 

34,01 


10 

21,05 

26,86 


11 

28,25 

34,99 


10 

25,26 

33,08 


13 

20,77 

26,71 


12 

30,41 

38,41 


13 

24,98 

32,95 


14 

23,30 

30,17 


13 

32,00 

41,04 


14 

24,56 

31,92 


15 

21,99 

29,39 


16 

31,25 

40,56 


15 

23,02 

30,69 


16 

23,75 

31,42 


17 

32,37 

42,10 


16 

20,96 

28,64 


17 

22,08 

29,81 


18 

30,87 

40,79 


17 

22,45 

30,23 


20 

21,14 

28,70 


19 

28,63 

38,09 


20 

21,61 

29,62 


21 

22,45 

30,06 


20 

29,56 

38,62 


21 

19,74 

27,93 


22 

22,36 

30,04 


23 

28,44 

37,58 


22 

20,49 

28,72 


23 

23,67 

31,46 


24 

29,28 

38,40 


23 

23,02 

32,17 


24 

25,63 

33,61 


26 

29,84 

39,27 


24 

23,48 

32,71 


27 

25,73 

33,72 


27 

28,35 

37,84 






28 

24,61 

32,56 


30 

27,32 

35,81 






29 

24,51 

31,98 


31 

30,41 

38,85 






30 

24,14 

31,26 










31 

22,64 

29,79 
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9. Mercado (cont.) 


Dia 

Telebras 

indice 

Mes 

Dia 

Telebras 

indice 

Mes 

Dia 

Telebras 

Indice 

3 

22,08 

28,94 

Maio 

2 

31,23 

38,62 

Jun. 

1 

29,53 

37,74 

4 

24,33 

31,25 


3 

31,99 

39,76 


2 

30,91 

39,66 

5 

24,98 

31,80 


4 

32,41 

40,44 


5 

31,50 

40,63 

6 

25,54 

32,54 


5 

31,71 

40,08 


6 

30,36 

39,33 

7 

25,35 

31,92 


8 

30,86 

39,14 


7 

29,07 

38,08 

10 

24,79 

31,14 


9 

32,23 

40,65 


8 

29,01 

38,18 

11 

24,23 

30,18 


10 

31,90 

40,50 


9 

27,51 

36,71 

12 

23,95 

30,21 


11 

30,62 

39,51 


12 

28,16 

37,05 

17 

24,89 

31,13 


12 

30,95 

39,98 


13 

29,42 

37,89 

18 

25,82 

31,94 


15 

29,91 

38,94 


14 

27,88 

36,65 

19 

27,23 

33,31 


16 

29,63 

38,35 


16 

28,48 

37,18 

20 

27,79 

33,84 


17 

31,14 

39,64 


19 

28,57 

36,96 

24 

29,00 

35,13 


18 

31,23 

40,08 


20 

27,15 

35,77 

25 

30,13 

36,99 


19 

30,81 

39,50 


21 

27,88 

36,32 

26 

30,69 

38,26 


22 

31,99 

40,34 


22 

27,70 

35,99 

27 

31,06 

38,51 


23 

32,56 

40,88 


23 

27,74 

35,86 

28 

30,86 

38,14 


24 

33,31 

41,00 


26 

27,65 

35,37 





25 

32,37 

40,19 


27 

28,80 

36,61 





26 

30,27 

39,05 


28 

29,21 

37,15 





29 

30,91 

38,96 


29 

28,62 

36,78 





30 

28,71 

37,07 









31 

28,98 

37,21 






10. Indices de Placa Bacteriana 

M edidas de um fndice de placa bacteriana obtidas de 26 criangas em idade pre-esco- 
lar, antes e depois do uso de uma escova experimental e de uma escova convencional. 
Fonte: Singer e Andrade (1997). 



Tipo de Escova 


Hugger 

Convencional 

Sujeito 

Sexo 

Antes da 
Escovapao 

Depois da 
Escovapao 

Antes da 
Escovacao 

Depois da 
Escovapao 

1 

F 

2,18 

0,43 

1,20 

0,75 

2 

F 

2,05 

0,08 

1,43 

0,55 

3 

F 

1,05 

0,18 

0,68 

0,08 

4 

F 

1,95 

0,78 

1,45 

0,75 

5 

F 

0,28 

0,03 

0,50 

0,05 

6 

F 

2,63 

0,23 

2,75 

1,60 

7 

F 

1,50 

0,20 

1,25 

0,65 

8 

F 

0,45 

0,00 

0,40 

0,13 

9 

F 

0,70 

0,05 

1,18 

0,83 

10 

F 

1,30 

0,30 

1,43 

0,58 

11 

F 

1,25 

0,33 

0,45 

0,38 

12 

F 

0,18 

0,00 

1,60 

0,63 

13 

F 

3,30 

0,90 

0,25 

0,25 
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10. indices de Placa Bacteriana (cont.) 



Tipo de Escova 


Hugger 

Convencional 

Sujeito 

Sexo 

Antes da 
Escovaipao 

Depois da 
Escovaipao 

Antes da 
Escovacao 

Depois da 
Escovaipao 

14 

F 

1,40 

0,24 

2,98 

1,03 

15 

M 

0,90 

0,15 

3,35 

1,58 

16 

M 

0,58 

0,10 

1,50 

0,20 

17 

M 

2,50 

0,33 

4,08 

1,88 

18 

M 

2,25 

0,33 

3,15 

2,00 

19 

M 

1,53 

0,53 

0,90 

0,25 

20 

M 

1,43 

0,43 

1,78 

0,18 

21 

M 

3,48 

0,65 

3,50 

0,85 

22 

M 

1,80 

0,20 

2,50 

1,15 

23 

M 

1,50 

0,25 

2,18 

0,93 

24 

M 

2,55 

0,15 

2,68 

1,05 

25 

M 

1,30 

0,05 

2,73 

0,85 

26 

M 

2,65 

0,25 

3,43 

0,88 













T A B E L A S 


As tabelas a seguir sao, em geral, auto-explicativas, maso uso decadaumaesta explica- 
do no texto. 0 Manual Explicativo de Pereira e Bussab (1974) pode ser consultado para 
mais explicates. 

1. A s tabelas I a V11 sao reproduzidas de Pereira e B ussab (1974), com permissao da 
Editora e autores. 

2. A tabela VIII foi elaborada usando o SPIus e baseada em Lehmann (1975). 

3. As tabelas IX e X sao adaptadas de Pereira e Bussab (1974), com permissao da 
Editora e autores. 
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2 - 3 - 4 5 - 6 - 7 8 - 9-10 11 -12 -13 
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14 — 15 — 16 19 - 18-17 
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Tabela III — Distribuiqao Normal Padrao 
Z~ N (0,1) 

Corpo da tabela da a probabilidade p, tal que p = P(0 < Z< Z c ) 


0 z c z 


parte in- 




Segunda decima 

1 de Z c 





parte in- 

teira e 











teira e 

primeira 

decimal 











primeira 

decimal 

de Z c 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

de Z c 


P = 0 


0,0 

00000 

00399 

00798 

01197 

01595 

01994 

02392 

02790 

03188 

03586 

0,0 

0,1 

03983 

04380 

04776 

05172 

05567 

05962 

06356 

06749 

07142 

07535 

0,1 

0,2 

07926 

08317 

08706 

09095 

09483 

09871 

10257 

10642 

11026 

11409 

0,2 

0,3 

11791 

12172 

12552 

12930 

13307 

13683 

14058 

14431 

14803 

15173 

0,3 

0,4 

15542 

15910 

16276 

16640 

17003 

17364 

17724 

18082 

18439 

18793 

0,4 

0,5 

19146 

19497 

19847 

20194 

20540 

20884 

21226 

21566 

21904 

22240 

0,5 

0,6 

22575 

22907 

23237 

23565 

23891 

24215 

24537 

24857 

25175 

25490 

0,6 

0,7 

25804 

26115 

26424 

26730 

27035 

27337 

27637 

27935 

28230 

28524 

0,7 

0,8 

28814 

29103 

29389 

29673 

29955 

30234 

30511 

30785 

31057 

31327 

0,8 

0,9 

31594 

31859 

32121 

32381 

32639 

32894 

33147 

33398 

33646 

33891 

0,9 

1,0 

34134 

34375 

34614 

34850 

35083 

35314 

35543 

35769 

35993 

36214 

1,0 

1,1 

36433 

36650 

36864 

37076 

37286 

37493 

37698 

37900 

38100 

38298 

1,1 

1,2 

38493 

38686 

38877 

39065 

39251 

39435 

39617 

39796 

39973 

40147 

1,2 

1,3 

40320 

40490 

40658 

40824 

40988 

41149 

41309 

41466 

41621 

41774 

1,3 

1,4 

41924 

42073 

42220 

42364 

42507 

42647 

42786 

42922 

43056 

43189 

1,4 

1,5 

43319 

43448 

43574 

43699 

43822 

43943 

44062 

44179 

44295 

44408 

1,5 

1,6 

44520 

44630 

44738 

44845 

44950 

45053 

45154 

45254 

45352 

45449 

1,6 

1,7 

45543 

45637 

45728 

45818 

45907 

45994 

46080 

46164 

46246 

46327 

1,7 

1,8 

46407 

46485 

46562 

46638 

46712 

46784 

46856 

46926 

46995 

47062 

1,8 

1,9 

47128 

47193 

47257 

47320 

47381 

47441 

47500 

47558 

47615 

47670 

1,9 

2,0 

47725 

47778 

47831 

47882 

47932 

47982 

48030 

48077 

48124 

48169 

2,0 

2,1 

48214 

48257 

48300 

48341 

48382 

48422 

48461 

48500 

48537 

48574 

2,1 

2,2 

48610 

48645 

48679 

48713 

48745 

48778 

48809 

48840 

48870 

48899 

2,2 

2,3 

48928 

48956 

48983 

49010 

49036 

49061 

49086 

49111 

49134 

49158 

2,3 

2,4 

49180 

49202 

49224 

49245 

49266 

49286 

49305 

49324 

49343 

49361 

2,4 

2,5 

49379 

49396 

49413 

49430 

49446 

49461 

49477 

49492 

49506 

49520 

2,5 

2,6 

49534 

49547 

49560 

49573 

49585 

49598 

49609 

49621 

49632 

49643 

2,6 

2,7 

49653 

49664 

49674 

49683 

49693 

49702 

49711 

49720 

49728 

49736 

2,7 

2,8 

49744 

49752 

49760 

49767 

49774 

49781 

49788 

49795 

49801 

49807 

2,8 

2,9 

49813 

49819 

49825 

49831 

49836 

49841 

49846 

49851 

49856 

49861 

2,9 

3,0 

49865 

49869 

49874 

49878 

49882 

49886 

49889 

49893 

49897 

49900 

3,0 

3,1 

49903 

49906 

49910 

49913 

49916 

49918 

49921 

49924 

49926 

49929 

3,1 

3,2 

49931 

49934 

49936 

49938 

49940 

49942 

49944 

49946 

49948 

49950 

3,2 

3,3 

49952 

49953 

49955 

49957 

49958 

49960 

49961 

49962 

49964 

49965 

3,3 

3,4 

49966 

49968 

49969 

49970 

49971 

49972 

49973 

49974 

49975 

49976 

3,4 

3,5 

49977 

49978 

49978 

49979 

49980 

49981 

49981 

49982 

49983 

49983 

3,5 

3,6 

49984 

49985 

49985 

49986 

49986 

49987 

49987 

49988 

49988 

49989 

3,6 

3,7 

49989 

49990 

49990 

49990 

49991 

49991 

49992 

49992 

49992 

49992 

3,7 

3,8 

49993 

49993 

49993 

49994 

49994 

49994 

49994 

49995 

49995 

49995 

3,8 

3,9 

49995 

49995 

49996 

49996 

49996 

49996 

49996 

49996 

49997 

49997 

3,9 

4,0 

49997 

49997 

49997 

49997 

49997 

49997 

49998 

49998 

49998 

49998 

4,0 

4,5 

49999 

50000 

50000 

50000 

50000 

50000 

50000 

50000 

50000 

50000 

4,5 
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61 

94 

50 

51 

25 

63 

12 

38 

22 

07 

61 

97 

39 

58 

52 

41 

88 

11 

33 

03 

41 

18 

06 

12 

79 

01 

90 

44 

52 

23 
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Tabela VII — Numeros Aleatorios 


09 

26 

29 

85 

11 

95 

77 

79 

04 

57 

00 

91 

29 

59 

83 

53 

87 

02 

02 

47 

40 

99 

93 

82 

13 

22 

40 

33 

19 

72 

55 

69 

82 

16 

94 

21 

66 

39 

40 

50 

55 

79 

00 

58 

17 

26 

30 

38 

11 

54 

89 

04 

13 

69 

17 

35 

48 

01 

75 

76 

54 

43 

11 

28 

32 

75 

33 

09 

04 

78 

74 

91 

56 

79 

43 

39 

45 

79 

30 

63 

56 

44 

70 

05 

04 

31 

81 

46 

02 

92 

32 

06 

71 

12 

48 


94 

61 

14 

24 

60 

27 

00 

00 

95 

54 

31 

59 

00 

79 

94 

46 

32 

61 

90 

95 

04 

73 

06 

72 

76 

88 

55 

62 

38 

79 

18 

68 

10 

31 

93 

58 

66 

92 

06 

78 

00 

85 

42 

57 

29 

28 

34 

79 

91 

93 

58 

82 

97 

37 

07 

64 

67 

69 

28 

18 

25 

08 

90 

93 

53 

17 

54 

12 

21 

03 

56 

30 

88 

53 

46 

82 

95 

63 

14 

76 

53 

62 

10 

21 

57 

55 

74 

57 

68 

22 

38 

84 

55 

57 

49 


41 

81 

16 

97 

55 

19 

65 

08 

62 

26 

38 

74 

32 

30 

44 

64 

64 

91 

80 

15 

71 

92 

40 

28 

33 

35 

23 

32 

75 

36 

18 

98 

41 

10 

50 

93 

75 

95 

81 

34 

84 

33 

83 

42 

77 

35 

00 

51 

42 

82 

63 

30 

47 

01 

98 

96 

73 

35 

04 

52 

06 

81 

24 

32 

74 

53 

28 

82 

43 

35 

01 

73 

34 

47 

05 

76 

85 

30 

59 

37 

00 

49 

88 

07 

43 

08 

04 

00 

48 

36 

23 

31 

88 

80 

88 


92 

93 

01 

94 

13 

33 

63 

32 

35 

38 

91 

18 

89 

71 

67 

46 

73 

42 

47 

51 

22 

59 

99 

51 

20 

74 

13 

55 

30 

41 

25 

99 

10 

26 

01 

33 

24 

13 

12 

32 

28 

25 

67 

22 

97 

11 

73 

55 

24 

09 

23 

47 

12 

93 

44 

80 

47 

02 

06 

80 

29 

39 

78 

49 

81 

21 

42 

00 

99 

80 

44 

56 

33 

83 

46 

16 

67 

08 

29 

16 

04 

92 

31 

62 

03 

94 

53 

02 

60 

55 

72 

46 

68 

25 

93 


54 

93 

90 

86 

52 

14 

58 

90 

34 

83 

00 

73 

38 

14 

50 

77 

58 

08 

94 

84 

83 

61 

42 

96 

82 

86 

02 

30 

40 

16 

65 

55 

63 

20 

40 

24 

79 

80 

15 

93 

11 

72 

17 

32 

31 

84 

89 

53 

66 

01 

99 

53 

75 

79 

92 

20 

61 

74 

92 

15 

60 

93 

84 

37 

29 

62 

24 

96 

78 

93 

28 

34 

41 

69 

04 

51 

13 

36 

81 

55 

51 

46 

66 

68 

85 

07 

73 

35 

42 

52 

61 

29 

21 

02 

34 


78 

33 

32 

06 

16 

45 

94 

09 

18 

40 

14 

73 

03 

61 

80 

69 

79 

52 

95 

73 

28 

21 

38 

57 

39 

36 

24 

33 

31 

99 

64 

86 

19 

61 

55 

50 

65 

14 

10 

20 

96 

70 

32 

41 

46 

22 

97 

08 

22 

02 

47 

43 

57 

15 

87 

76 

59 

47 

00 

27 

41 

43 

70 

17 

52 

44 

51 

26 

94 

73 

17 

72 

16 

51 

81 

77 

03 

84 

44 

29 

43 

57 

05 

46 

59 

89 

00 

65 

01 

20 

27 

32 

66 

34 

56 
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Tabela VIII — Distribuipao de Mann-Whitney U s 
O corpo da tabela da as probabilidades P(U S =s u). 


m u 

n = 3 

n = 4 

n = 5 

n = 6 

n = 7 

n =8 

n = 9 

n= 10 

3 0 

0500 

0286 

0179 

0119 

0083 

0061 

0045 

0035 

1 

1000 

0571 

0357 

0238 

0167 

0121 

0091 

0070 

2 

2000 

1143 

0714 

0476 

0333 

0242 

0182 

0140 

3 

3500 

2000 

1250 

0833 

0583 

0424 

0318 

0245 

4 

5000 

3143 

1964 

1310 

0917 

0667 

0500 

0385 

5 

6500 

4286 

2857 

1905 

1333 

0970 

0727 

0559 

6 

8000 

5714 

3929 

2738 

1917 

1394 

1045 

0804 

7 

9000 

6857 

5000 

3571 

2583 

1879 

1409 

1084 

8 

9500 

8000 

6071 

4524 

3333 

2485 

1864 

1434 

9 

1,0000 

8857 

7143 

5476 

4167 

3152 

2409 

1853 

10 


9429 

8036 

6429 

5000 

3879 

3000 

2343 

11 


9714 

8750 

7262 

5833 

4606 

3636 

2867 

12 


1,0000 

9286 

8095 

6667 

5394 

4318 

3462 

13 



9643 

8690 

7417 

6121 

5000 

4056 

14 



9821 

9167 

8083 

6848 

5682 

4685 

15 



1,0000 

9524 

8667 

7515 

6364 

5315 

4 0 


0143 

0079 

0048 

0030 

0020 

0014 

0010 

1 


0286 

0159 

0095 

0061 

0040 

0028 

0020 

2 


0571 

0317 

0190 

0121 

0081 

0056 

0040 

3 


1000 

0556 

0333 

0212 

0141 

0098 

0070 

4 


1714 

0952 

0571 

0364 

0242 

0168 

0120 

5 


2429 

1429 

0857 

0545 

0364 

0252 

0180 

6 


3429 

2063 

1286 

0818 

0545 

0378 

0270 

7 


4429 

2778 

1762 

1152 

0768 

0531 

0380 

8 


5571 

3651 

2381 

1576 

1071 

0741 

0529 

9 


6571 

4524 

3048 

2061 

1414 

0993 

0709 

10 


7571 

5476 

3810 

2636 

1838 

1301 

0939 

11 


8286 

6349 

4571 

3242 

2303 

1650 

1199 

12 


9000 

7222 

5429 

3939 

2848 

2070 

1518 

13 


9429 

7937 

6190 

4636 

3414 

2517 

1868 

14 


9714 

8571 

6952 

5364 

4040 

3021 

2268 

15 


9857 

9048 

7619 

6061 

4667 

3552 

2697 

16 


1,0000 

9444 

8238 

6758 

5333 

4126 

3177 

17 



9683 

8714 

7364 

5960 

4699 

3666 

18 



9841 

9143 

7939 

6586 

5301 

4196 

19 



9921 

9429 

8424 

7152 

5874 

4725 

20 



1,0000 

9667 

8848 

7697 

6448 

5275 

Obs.: Todas as entradas (com excegao de 1,0000) devem ser precedidas de 0, 
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Tabela VIII 

— Distribuicao de Mann-Whitney (continua?ao) 



m u 

n = 5 

n = 6 

n = 7 

n = 8 

n = 9 

n= 10 

m u 

n =7 

n = 8 

n = 9 

n= 10 

5 0 

0040 

0022 

0013 

0008 

0005 

0003 

7 0 

0003 

0002 

0001 

0001 

1 

0079 

0043 

0025 

0016 

0010 

0007 

1 

0006 

0003 

0002 

0001 

2 

0159 

0087 

0051 

0031 

0020 

0013 

2 

0012 

0006 

0003 

0002 

3 

0278 

0152 

0088 

0054 

0035 

0023 

3 

0020 

0011 

0006 

0004 

4 

0476 

0260 

0152 

0093 

0060 

0040 

4 

0035 

0019 

0010 

0006 

5 

0754 

0411 

0240 

0148 

0095 

0063 

5 

0055 

0030 

0017 

0010 

6 

1111 

0628 

0356 

0225 

0145 

0097 

6 

0087 

0047 

0026 

0015 

7 

1548 

0887 

0530 

0326 

0210 

0140 

7 

0131 

0070 

0039 

0023 

8 

2103 

1234 

0745 

0466 

0300 

0200 

8 

0189 

0103 

0058 

0034 

9 

2738 

1645 

1010 

0637 

0415 

0276 

9 

0265 

0145 

0082 

0048 

10 

3452 

2143 

1338 

0855 

0559 

0376 

10 

0364 

0200 

0115 

0068 

11 

4206 

2684 

1717 

1111 

0734 

0496 

11 

0487 

0270 

0156 

0093 

12 

5000 

3312 

2159 

1422 

0949 

0646 

12 

0641 

0361 

0209 

0125 

13 

5794 

3961 

2652 

1772 

1199 

0823 

13 

0825 

0469 

0274 

0165 

14 

6548 

4654 

3194 

2176 

1489 

1032 

14 

1043 

0603 

0356 

0215 

15 

7262 

5346 

3775 

2618 

1818 

1272 

15 

1297 

0760 

0454 

0277 

16 

7897 

6039 

4381 

3108 

2188 

1548 

16 

1588 

0946 

0571 

0351 

17 

8452 

6688 

5000 

3621 

2592 

1855 

17 

1914 

1159 

0708 

0439 

18 

8889 

7316 

5619 

4165 

3032 

2198 

18 

2279 

1405 

0879 

0544 

19 

9246 

7857 

6225 

4716 

3497 

2567 

19 

2675 

1678 

1052 

0665 

20 

9524 

8355 

6806 

5284 

3986 

2970 

20 

3100 

1984 

1261 

0806 



21 

3552 

2317 

1496 

0976 

6 0 


0011 

0006 

0003 

0002 

0001 

22 

4024 

2679 

1755 

1148 

1 


0022 

0012 

0007 

0004 

0002 

23 

4508 

3063 

2039 

1349 

2 


0043 

0023 

0013 

0008 

0005 

24 

5000 

3472 

2349 

1574 

3 


0076 

0041 

0023 

0014 

0009 

25 

5492 

3894 

2680 

1819 

4 


0130 

0070 

0040 

0024 

0015 

26 

5976 

4333 

3032 

2087 

5 


0206 

0111 

0063 

0038 

0024 

27 

6448 

4775 

3403 

2374 

6 


0325 

0175 

0100 

0060 

0037 

28 

6900 

5225 

3788 

2681 

7 


0465 

0256 

0147 

0088 

0055 

29 

7325 

5667 

4185 

3004 

8 


0660 

0367 

0213 

0128 

0080 

30 

7721 

6106 

4591 

3345 

9 


0898 

0507 

0296 

0180 

0112 



10 


1201 

0688 

0406 

0248 

0156 



11 


1548 

0903 

0539 

0332 

0210 



12 


1970 

1171 

0709 

0440 

0280 



13 


2424 

1474 

0906 

0567 

0363 



14 


2944 

1830 

1142 

0723 

0467 



15 


3496 

2226 

1412 

0905 

0589 



16 


4091 

2669 

1725 

1119 

0736 



17 


4686 

3141 

2068 

1361 

0903 



18 


5314 

3654 

2454 

1638 

1999 



19 


5909 

4178 

2864 

1942 

1317 



20 


6504 

4726 

3310 

2280 

1566 



21 


7056 

5274 

3773 

2643 

1838 



22 


7576 

5822 

4259 

3035 

2139 



23 


8030 

6346 

4749 

3445 

2461 



24 


8452 

6859 

5251 

3878 

2811 



25 


8799 

7331 

5741 

4320 

3177 



26 


9102 

7774 

6227 

4773 

3564 



27 


9340 

8170 

6690 

5227 

3962 



28 


9535 

8526 

7136 

5680 

4374 



29 


9675 

8829 

7546 

6122 

4789 



30 


9794 

9097 

7932 

6555 

5211 
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Tabela VIII 

- Distribuifao de Mann 

-Whitney (continua?ao) 


m u 

n =8 

n = 9 

n= 10 

m u 

n =9 

n= 10 

m u 

17= 10 

8 0 

0001 

0000 

0000 

9 0 

0000 

0000 

10 0 

0000 

1 

0002 

0001 

0000 

1 0000 

0000 

1 

0000 

2 

0003 

0002 

0001 

2 

0001 

0000 

2 

0000 

3 

0005 

0003 

0002 

3 

0001 

0001 

3 

0000 

4 

0009 

0005 

0003 

4 

0002 

0001 

4 

0001 

5 

0015 

0008 

0004 

5 

0004 

0002 

5 

0001 

6 

0023 

0012 

0007 

6 

0006 

0003 

6 

0002 

7 

0035 

0019 

0010 

7 

0009 

0005 

7 

0002 

8 

0052 

0028 

0015 

8 

0014 

0007 

8 

0004 

9 

0074 

0039 

0022 

9 

0020 

0011 

9 

0005 

10 

0103 

0056 

0031 

10 

0028 

0015 

10 

0008 

11 

0141 

0076 

0043 

11 

0039 

0021 

11 

0010 

12 

0190 

0103 

0058 

12 

0053 

0028 

12 

0014 

13 

0249 

0137 

0078 

13 

0071 

0038 

13 

0019 

14 

0325 

0180 

0103 

14 

0094 

0051 

14 

0026 

15 

0415 

0232 

0133 

15 

0122 

0066 

15 

0034 

16 

0524 

0296 

0171 

16 

0157 

0086 

16 

0045 

17 

0653 

0372 

0217 

17 

0200 

0110 

17 

0057 

18 

0803 

0464 

0273 

18 

0252 

0140 

18 

0073 

19 

0974 

0570 

0338 

19 

0313 

0175 

19 

0093 

20 

1172 

0694 

0416 

20 

0385 

0217 

20 

0116 

21 

1393 

0836 

0506 

21 

0470 

0267 

21 

0144 

22 

1641 

0998 

0610 

22 

0567 

0326 

22 

0177 

23 

1911 

1179 

0729 

23 

0680 

0394 

23 

0216 

24 

2209 

1383 

0864 

24 

0807 

0474 

24 

0262 

25 

2527 

1606 

1015 

25 

0951 

0564 

25 

0315 

26 

2869 

1852 

1185 

26 

1112 

0667 

26 

0376 

27 

3227 

2117 

1371 

27 

1290 

0782 

27 

0446 

28 

3605 

2404 

1577 

28 

1487 

0912 

28 

0526 

29 

3992 

2707 

1800 

29 

1701 

1055 

29 

0615 

30 

4392 

3029 

2041 

30 

1933 

1214 

30 

0716 

31 

4796 

3365 

2299 

31 

2181 

1388 

31 

0827 

32 

5204 

3715 

2574 

32 

2447 

1577 

32 

0952 

33 

5608 

4074 

2863 

33 

2729 

1781 

33 

1088 

34 

6008 

4442 

3167 

34 

3024 

2001 

34 

1237 

35 

6395 

4813 

3482 

35 

3332 

2235 

35 

1399 

36 

6773 

5187 

3809 

36 

3652 

2483 

36 

1575 

37 

7131 

5558 

4143 

37 

3981 

2745 

37 

1763 

38 

7473 

5926 

4484 

38 

4317 

3019 

38 

1965 

39 

7791 

6285 

4827 

39 

4657 

3304 

39 

2179 

40 

8089 

6635 

5173 

40 

5000 

3598 

40 

2406 











W 0005 

0 

0 

0 

0 

1 

2 

4 

6 

8 

10 

13 

16 

20 

24 

28 

33 

38 

44 

49 

55 

62 

69 

76 
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Tabela IX — Distribui<pao de Wilcoxon T + 

O corpo da tabela da os valores w p tais que P(T + < Wf,) = p 


W 0.01 

W 0.025 

W 0.05 

W 

0.10 


W 0.005 

W 0.01 

w 

0.025 

w 

0.05 

w 

vv 0.10 

0 

0 

0 

i 

n = 27 

84 

94 

108 

120 

135 

0 

0 

1 

3 

28 

92 

102 

117 

131 

146 

0 

1 

3 

4 

29 

101 

111 

127 

141 

158 

l 

3 

4 

6 

30 

no 

121 

138 

152 

170 

2 

4 

6 

9 

31 

119 

131 

148 

164 

182 

4 

6 

9 

11 

32 

129 

141 

160 

176 

195 

6 

9 

11 

15 

33 

139 

152 

171 

188 

208 

8 

11 

14 

18 

34 

149 

163 

183 

201 

222 

10 

14 

18 

22 

35 

160 

175 

196 

214 

236 

13 

18 

22 

27 

36 

172 

187 

209 

228 

251 

16 

22 

26 

32 

37 

184 

199 

222 

242 

266 

20 

26 

31 

37 

38 

196 

212 

236 

257 

282 

24 

30 

36 

43 

39 

208 

225 

250 

272 

298 

28 

35 

42 

49 

40 

221 

239 

265 

287 

314 

33 

41 

48 

56 

41 

235 

253 

280 

303 

331 

38 

47 

54 

63 

42 

248 

267 

295 

320 

349 

44 

53 

61 

70 

43 

263 

282 

311 

337 

366 

50 

59 

68 

78 

44 

277 

297 

328 

354 

385 

56 

67 

76 

87 

45 

292 

313 

344 

372 

403 

63 

74 

84 

95 

46 

308 

329 

362 

390 

423 

70 

82 

92 

105 

47 

324 

346 

379 

408 

442 

77 

90 

101 

114 

48 

340 

363 

397 

428 

463 

85 

99 

111 

125 

49 

357 

381 

416 

447 

483 


50 

374 

398 

435 

467 

504 









0,05 

975 

842 

708 

624 

563 

519 

483 

454 

430 

409 

391 

375 

361 

349 

338 

327 

318 

309 

301 

294 
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Tabela X — Distribuiqao de Kolmogorov-Smirnov D 
O corpo da tabela da os valores D c tais que P(|D| 3= D c ) = p. 


0,02 

0,01 

P 

n \\ 

0,05 

0,02 

0,01 

n 

0,05 

0,02 

0,01 

990 

995 

21 

287 

321 

344 

41 

208 

232 

249 

900 

929 

22 

281 

314 

337 

42 

205 

229 

246 

785 

829 

23 

275 

307 

330 

43 

203 

227 

243 

689 

734 

24 

269 

301 

323 

44 

201 

224 

241 

627 

669 

25 

264 

295 

317 

45 

198 

222 

238 

577 

617 

26 

259 

290 

311 

46 

196 

219 

235 

538 

576 

27 

254 

284 

305 

47 

194 

217 

233 

507 

542 

28 

250 

279 

300 

48 

192 

215 

231 

480 

513 

29 

246 

275 

295 

49 

190 

213 

228 

457 

489 

30 

242 

270 

290 

50 

188 

211 

226 

437 

468 

31 

238 

266 

285 





419 

449 

32 

234 

262 

281 

>50 

1,358 

1,517 

1,628 

404 

432 

33 

231 

258 

277 

Vn 

Vn 

Vn 

390 

418 

34 

227 

254 

273 





377 

404 

35 

224 

251 

269 





366 

392 

36 

221 

247 

265 

Expressao qeral para n > 

50 

355 

381 

37 

218 

244 

262 



i D 


346 

371 

38 

215 

241 

258 


n V 

- |o g= -j 


337 

361 

39 

213 

238 

255 


D c ~ 

V2n 


329 

352 

40 

210 

235 

252 





















R E S P 0 S T A S 


Capitulo 2 


1 . (a) razao (e) razao 

(b) ordinal (f) nominal 

(c) razao (g) intervalar 

(d) intervalar 

3. Populagao urbana: 


Numero de habitantes 

n i 

f, 

Menos de 500.000 

3 

0,1 1 1 1 

500.001 a 1.000.000 

2 

0,0740 

1.000.001 a 5.000.000 

15 

0,5556 

5.000.001 a 10.000.000 

4 

0,1481 

Mais de 10.000.000 

3 

0,1 1 1 1 

Total 

27 

1,0000 


Densidade populacional: 


Densidade (hab./km 2 ) 

n i 

f, 

Menos de 10 

9 

0,3333 

10 a 30 

5 

0,1852 

30 a 50 

4 

0,1481 

50 a 100 

6 

0,2222 

Mais de 100 

3 

0,1 1 1 1 

Total 

27 

1,0000 


6. (a) Histograma 



Taxa de crescimento 


(b) Grafico de d/spersao unidimensional 


2 4 6 8 

Taxa de crescimento 


8. Histograma 



Populapao (x 10000) 

Ramo-e-folhas 

Decimal point is 1 place to the right of the colon 
4:6 

5 : 0046 

6 : 234778 
7:35 

8 : 045 

9 : 2 
10:22 
11:69 
12 : 

13:06 

14: 

15: 2 
16: 

17: 

18: 8 
19: 

20 : 1 
21:1 
22 : 5 

Valores maiores: 556.9998,8 
Grafico de d/spersao unidimensional 
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Grafico de dispersdo unidimensional 


•»«••••« * «••••• • •••• 


50 100 150 200 

Populagcio x 10000 
(sem as duas maiores observacoes) 

11. (a) Zona Urbana: 




(b) Os histogramas indicam que os alugueis dos imo- 
veis localizados na zona rural estao mais concen- 
trados entre os valores 2 e 5, diferentemente da 
zona urbana. Tambem se percebe que valores en¬ 
tre 10 e 15 estao presentes apenas na amostra 
retirada da zona urbana. Alem disso, a distribui- 
gao para a zona urbana e menos assimetrica do 
que a distribuigao para a zona rural. 


Idade 

n j 

f. 

F 

[20, 25) 

2 

0,0555 

0,0555 

[25, 30) 

6 

0,1668 

0,2223 

[30, 35) 

10 

0,2778 

0,5001 

[35, 40) 

8 

0,2222 

0,7223 

[40, 45) 

8 

0,2222 

0,9445 

[45, 50) 

2 

0,0555 

1,0000 

Total 

36 

1,0000 





2 0. Ramo-e-folhas para a vanavel CO: 

4: 77 
5: 12 

5:55677789 

6:1111122222222233333444444 
6:5666677777899999999 
7:00122233444 
7:5566777778888899999999 

8 : 012334 

8:55678999 

9 : 0114 
9:557 

10 : 1333 
10 : 8 
11: 469 
12 : 05 
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Capftulo 3 


1 . (aj 0,66 
(b) 0,5 
(cj 0,8393 
(e) 330 

2. X = 2,6; md = 2,6; dp = 0,04 

6 . (a) 2 

(b) 2 

(cj X = 2,11, supondo-se o valor 6 para "mais que 5". 

8. _ 37_ 

35 

31 40 

21 49 

d q = 9; di = 14; ds = 14; aproximadamente normal. 

9. q(0,l) = 13,5; q(0,9) = 79,0. 

1 1. Distribuiqao assimetrica a direita. 

Desenho esquemdt/co (box plot) dos salarios dos funciona- 
rios da Companhia Milsa. 


20 - 

5 

15 - 
.9 
^9 


5 - 


16. (a) Histograma das vendas semanais de vendedores de 
generos alimentlci os 



Vendas semanais (em S.M.) 


(b)X = 51,2 
(cj s = 6,62 

(d) 94% 

(e) md = 52,5 

18. (a) q(0,1) = 92,4, 

(b) q(0,2) = 102,1, 

(c) q 2 = 105,7, q 2 = 135,8, q 3 = 208,6. 

20. (b) x = 3,65; var = 28,19; dp = 5,31. 

(c) q 2 = 2, q 2 = 3,25. 

(d) Media dobra e variancia multiplicada por 4. 

(ej Media e mediana aumentadas de 2; variancia 

nao se altera. 

22. (a) Receber menos do que 5.000. 

(b) empresa B. 

24. (c) media = 1,75; md = 1,6 

(d) var = 0,963; dp = 0,98 

(e) q 2 = 1,1 

26. media = 6,9; var = 6,19; 
moda = 9; md = 7; q 3 = 4,8. 

28. (a) nao; X = 22,5. 

(b) x- 22 =0,48; 2 dp( X )/Vn =1,08; logo, a campa- 
nha nao surtiu efeito. 

(cj Histograma da idade media dos candidates 



F « 1 

Sj = 32,5; t = 0,03; desempenhos semelhantes. 

(aj x = 0,305; var = 0,218 

(bj x = proporqao dos empregados da capital 











































RESPOSTAS 


525 


(c) Hislogramo de X 

0.6 - 

-8 0.4 - 
a 

— - 

s 0.2 - 

0.0 - j | | — 

-0.5 0.0 0.5 1.0 1.5 

X 

38. (a) Z e lima nota padronizada. 

(fa) As notas padronizadas sao: 


0,58 

0,58 

-0,18 

-0,18 

0,58 

1,35 

-0,18 

-0,18 

0,58 

-0,18 

1,35 

-0,95 

-0,95 

0,58 

0,58 

-0,95 

-0,18 

0,58 

-3,26 

-0,95 

-0,95 

-0,18 

1,35 

0,58 

0,58 


(c) z = 0; dp = 1 

(d) z =-3,26 


(e) politico 

39. (a) x(0,l) = 10,84; x(0,25) = 10,52 

40. CV(A) =20%; CV(B) =30% 


42. dam (urb) = 1.413.000; dam (rural) = 546.900 



Graf, simetria 



Dodos nao simetricos; pontos acima da reta u = v no grdfico 
de simetria. 

48. (a) n = 120; d q = 16; A = 5,47 = 16(0,039896) 3 ' 3 . 
(b) n = 30; d q = 20.734; A = 7.600 = 

= 20.734(0,049237) 1 ' 3 . 


Capftulo 4 


1 . (fa) 50% (d) 58,3% 

(c) 19,4% 

3. (fa) 2,5% (d) 12,5% 

(c) 50% 

(e) Bastante modificada; maioria das pessoas que 
ganham pouco tern alta rotatividade. 

5. Existe relagao, pois as probabilidades marginals nao 
se repetem no interior da tabela. 

7. X 2 = 0,67, C =0,81 

8. Problema 3: X 1 = 5,625, C = 0,351, T = 0,375. 
Problema 6: X 2 = 11,42, C = 0,075, T = 0,076. 

9. Nao ha diferengas entre as tres empresas. 

11. (fa) O grdfico indica dependencia linear entre as 
variaveis. 

(c) 0,86 

(d) Porto Alegre e Fortaleza apresentam comporta- 
mentos diferentes dos demais. 


13. (a) 7j- 

o 6- 

a 5- • 2. 

-g 4- • *2 

8-3- • 2 

I 2 - . 

i-L._ i _ i _ i _ 

2.0 2.5 3.0 3.5 4.0 

Numero de objetos 

(b) 0,74 

1 5. Segao e Notas de Estatlstica nao sao correlacionadas. 

18. (a) 


Estado 

Civil 


Salario 



Menos de 
10S.M. 

entre 10 
e 20 S.M. 

Mais de 
20 S.M. 

Total 

solteiro 

0,12 

0,19 

0,09 

0,40 

casado 

0,08 

0,31 

0,21 

0,60 

Total 

0,20 

0,50 

0,30 

1,00 
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(b) Considere-se a tabela do total de colunas: 


Estado 

Civil 


Salario 



Menos de 
10 S.M. 

entre 10 
e 20 S.M. 

Mais de 
20 S.M. 

Total 

solteiro 

0,60 

0,38 

0,30 

0,40 

casado 

0,40 

0,62 

0,70 

0,60 

Total 

1,00 

1,00 

1,00 

1,00 


Pelas diferengas entre as proporgoes marginais e as 
do interior da tabela, diz-se que existe relagao entre 
as variaveis. 


20 . 



Atividade 



Costeira 

Fluvial 

Intemacional 

Total 

Estatal 

5 (33,64) 

141 (129,02) 

51 (34,34) 

197 

Particular 

92 (63,64) 

231 (242,98) 

48 (64,66) 

371 


Como X 2 = 51,09, parece existir associagao entre o 
tipo de atividade e a propriedade das embarcagoes. 


21 . X 2 = 18,5; ha indicagao de relagao. 

22. (a) tomando porcentagens por colunas, ha evidencias 
de que a distribuigao de respostas SIM e NAO 
nao coincidem. 

(b) X 2 =33,63; ha dependencia. 

(c) X 2 =7,01. 

25. Corr(X,Y) =-0,92 

28. (a) x 2 - 0,0008; logo, nao ha associagao entre os 
resultados. 

(b) Corr(Xj, x 2 ) =0, de acordo com (a) 

30. (b) v = 30,2, var(V) = 130,6; ha um vendedor 
excepcional. 

(c) q 2 = 23,5 

(d) Os box plots a seguir indicam que existe alguma 
diferenga entre a distribuigao das vendas nas tres 
diferentes zonas. Assim, nao e justo aplicar um 
mesmo criterio para todas as zonas. 


55 -- 
45 - 
35 - 
25 - 

15 "I -r-r-r 

1 2 3 

Zonas 



(e) Corr(T, V) = 0,71, Corr(E, V) = 0,26, logo a 
nota no teste e variavel mais importante. 

(f) X 2 = 3,76; baixa associagao. 


35. Os salarios da capital tern variabilidade maior e a 
distribuigao mais assimetrica. As medias e medianas 
sao similares. 


15- 

10 - 


Capital 


251 - 

15-- 

5-_ 1 

Interior 


15- 

10 - 

5-. 


Outra 


37. Os boxp/ots da figura abaixo mostram que a regiao 
sudestetem maior mediana etambem maior variabili¬ 
dade, enquanto as regioes norte e central apresen- 
tam variabilidades menores do que as demais. As 
distribuigoes sao todas assimetricas. 



Capftulo 5 


1. £2={(B,C), (B,R), (V, B), (V, V)}, onde C = cara e 
R = coroa. 

2. Q. = {5, (5, 5), (5, 5, 5...}, onde 5 indica qualquerface 
distinta de face 5. 

4. £2 1 = {(C, C), (C, R), (R, C), (R, R)}, 

Q 2 = {0, 1, 2}, com to = numero de cara nos dois 
langamentos. Segue-se que £^ = {0, R} X {C, R}. 

5. a i= {(C, 1), (C, 2).(C, 6), (R, 1), (R, 2).(R, 6)} = 

= {C,R}x{l, 2, 3, 4, 5,6} 


7. faj {(C, R), (R, C), (C, C)} 

(b) {(C,C)} 

(c) {(C, R), (R, C), (R, R)} 

9 . (a) t P(ca) = 2(1/4) + 2(1/8) + 4(1/16) = 1 

t=i 

(b) P (A veneer) =(1/4) +(1/16) =5/16 =P(B veneer) 
(cj P(AC BA, BC AB) = 1/8 

10. (a) Zlo (5/6) k ( 1/6) = (1/6)(1/(1 - 5/6)) = 1 
(b) (1/6)(5/6) 2 = 0,12 
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13. Do Problema 7: (a) 3/4 (b) 1/4 (c) 3/4 
Do Problema 12: 

P(A) = 0,11, P(B) = 0,5, P(A U B) = 0,53, 

P(A n B) = 0,08, P(A c ) = 0,89. 

17. 0,92 

18. (a) 0,56 (b) 0,67 

20. h(p 1 , p 2 , p 3 ) = p 2 (p 2 + p 3 - p 2 p 3 ) 

22. h(p) = p 2 (2 - p 2 ) 

24. 0,16 

25. 0,305 

26. (a) P (H ) = 0,75, P (A | H) = 0,20, P(B |M) = 0,30 

(b) P(A n H) =0,15, P(A U H) =0,925 

(c) P(M |A) = 0,538 


28. 0,60 


29. 3/28 = 0,107 


30. (a) 0,0296 

(b) 0,0298 

31. (a) 0,165 
(b) 0,132 

(c) 0,790 

32. (a) (1/2) 3 = 1/8 

(b) (0,9) 3 = 0,73 

33. (a) 0,049 
(b) 0,295 

(cj 0,463 

34. (a) 0,375 
(b) 0,292 

(c) 0,333 

35. 0,0135 


36. 0,999 


37. 0,36; 0,41; 0,23 


38. (a) 0,086 

(b) 0,736 

39. (a) 0,312 

(b) 0,58 

40. (a) 0,62 
(b) 0,21 

(cj 0,11 
(d) 0,29 

41. (a) 0,28 
(b) 0,02 

(c) 0,68 


I 8.300 ( 

( 8.299 \ 

(c) /13.000 \ 

/12.999 \ 

\15.800 J 

1 1(5.799 ) 

\ 15.800 ) 

5.5.799 ) 


44. 0,072 

m x m- 1 1 

m+n-b ' m+n-b-lj 


48. h(p) = p(p 4 - p 3 - 2p 2 + 2p +1) 



• P(A) =(2/3-1/2) x 1/2 =1/6 

• P (B) =1/2 x (3/4 - 1/4) = 1/4 

• P (A n B) =(2/3- 1/21(1/2- 1/4) =1/24 

• P(A UB) =1/6 +1/4- 1/24=3/8 

• P (A c ) = 1 - 1/6 = 5/6 

• P (B c ) = 1 - 1/4 = 3/4 

• P(A C n B c ) =1- P(A U B) =1- 3/8 =5/8 
53. (N) n /N n 

55. (a) P(A n (B n C)) =P(A n B n C) = 

= P(A)P(B)P(C) = P(A )P(B n C) 

(b) P ((A U B) n C) =P(A UB)+P(C)-P((AUB)UC) 
= P(A) + P(B) - P(A)P(B) + P(C) 

-[P(A) + P(B) + P(C) - P(A)P(B) - P(A)P(C) 

- P(B)P(C) + P(A )P(B)P(C)], de onde 
P((A U B) n C) = P(A)P(C) + P(B)P(C) 

- P(A)P(B)P(C) = P(A U B)P(C) 

56. Nao, pois P(A fl B) & 5/12 e P(A n B) =0 para 
que A e B sejam mutuamente exclusivos. 

58. Note que V = (V n U c ) U (U OVleU U V = 
= (V nU'iuU. Tome probabilidades e a diferenga 
entre elas. 

59. (a) P(A i ) = 1/2, i =1, 2, 3 e P(A) =0. 

(b) P(A n A,) = 1/4 = P(A i )P(A J ), 

mas P(A 2 n A 2 n A 3 ) =0 # P(Aj)P(A 2 )P(A 3 ). 
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60. P(Aj n ... n A n ) =P(A 1 )P(A 2 |A 1 ) ... P(A„|Ai n ... A„.J 

62. p, onde 1 - p = (1 - 1/365)(1 - 2/365) ... (1 - (k - l)/365) e a probabilidade de todos os aniversarios serem distintos. 

63. 1 - p » 1 - 2/365 - 3/365 - ... - (k - l)/365 - 1/365 + 2/365 2 + ... e desprezando termos com denominadores 
365 2 , 365 3 etc. obtemos o resultado. 

64. P ( A |F) = 0,563, P(C |F) = 0,845. 


Capftulo 6 


X 

0 

1 

2 

3 

X 

II 

>< 

a_ 

1/56 

15/56 

30/56 

10/56 


X 

1 

2 

3 

4 

X 

II 

>< 

Q_ 

0,50 

0,25 

0,125 

0,0625 ... 


De modo geral, 

P(X = x) = (l/2)(l/2)x - 1 =(1/2)*, x = 1, 2, 3... 


5. No contexto apresentado, a distribuigao do numero 
de caras e dada por: 

P<Y =y ) = (y ) P y (i - p) 4 ' y y=0,1, 2, 3,4. 

7. Problema 1: E(X) =1,875,Var(X) =0,502. 

Problemo 2: E (X ) = 1,875, Var(X ) = 0,703. 

8. E(Y) =2,0,Var(Y) =1,0 


X 

0 

1 

2 

3 

p(x) 

1/8 

3/8 

3/8 

1/8 

Y 

1 

2 

3 


p(y) 

1/4 

1/2 

1/4 


E (X) = 1,5, E (Y) = 2, Var(X) = 0,75, Var(Y) = 0,5 


1 1. E(V) =1- q, Var(V) =q(l- q) 

1 3. Y toma valores 0, 50.000,100.000, com probabilidades 
126/150, 23/150 e 1/150, respectivamente. 

E(Y) =8.333,33. 

15. A partir do problema 11, tem-se: 

[ 0, V < 0 

F v (v) = l q, 0 =s v < 1 
[ 1, v 3= 1 


Grafico para q = 0,4. 



1 7. E(T) =4,6; E (G ) = 2,75; Var(G ) =0,4125 

20. 1) X — b(5,1/3); 2) nao e binomial; ensaios nao inde- 
pendentes; 3) X sera binomial se a proporgao de bo- 
las brancas for a mesma em todas as urnas; 4) X sera 
binomial se a proporgao de pessoas com opiniao 
contraria for a mesma nas dez cidades; 5) X sera 
binomial se a probabilidade de obter pega defeituo- 
sa for a mesma para todas as maquinas. 

22. (a) 0,2834 (c) 0,2792 

(b) 0,5925 

24. binomial: 0,3758; Poisson: 0,4060. 

26. O grafico da distribuigao de X, p(x), e 
0.30 - * * 

0.25 - 

0.20 - 

4 ? 

°< 0.15 - * * 

0.10 - 
0.05 - 

• _____ • 

0 12 3 4 5 

x 
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37. Vender por 13,50 reais. 

39. 6,48 

42. fa) 0,705 (c) 0,933 

fb) 0,236 

44. (a) 1/3; (b) 7/8; (c) 1/2 10 

48. 9 x lO 6 
50. p = 0,2 

53. A mediana e qualquer valor erm (1, 2). 

56. 6.200 

57. Basta notar que Y = j se e somente se A ocorre na 
j-esima repetigao e A ocorre (r - 1) vezes nas (k - 1) 
repetigoes anteriores. A probabilidade desse evento e 

Hr-l)^ lqJ r = ( j r "-l) prqJ '’j =r ' r +1, ■" 


Capftulo 7 

1 . (b) e- 20 

3. (a) 1/100 (b) r 2 /100 

5. E ( X ) = 1/2, Var(X) = 1/24 

6. E(X) = 1, Var(X) =n- 1 

8. (a) (- 7b 3 )/(b 3 + 8) (b) E(X) = -3/4, Var(X) = 3/80 

10. fa) 0,375 fc) 245 kg 

(b) 4.000 kg 

1 1 . E (X) =1/2, Var(X) =1/4 

13. (b) E(L) = (2/3)C 3 + (1/3) C 2 - C 2 

15. (a) 0,933 fc) 0,683 

(b) 0,977 (d) a = 19,6 

17. (a) 9413 (b) ] 164,25; 175,75[ 

19. P(D j > 45) = 0,31, P(D 2 > 45) = 0,5; 

P(D 1 >49) =0,121, P(D 2 >49) =0,092 

21. 0,033 

23. 0,1043 

24. 0,9986 

26. g(y) =3/8(y + 0,6) 2 , -2,6 « y « -0,6; E (Y) =-2,10 
28. (a) 2,47 (b) 0,338 (c) 2,06 


30. Notar que G(u) = P(0 =£ U s u) = u, 0 s u s 1. 

31. fa) 0,4 (c) 0,3 

(b) 0,2 (d) 0,2 

33. 7,70 e 3, respectivamente. 

35. 4,33; 5,54; 6,02 

37. 9,34 

39. (a) 1/2 (e 3 - e) 

40. E (X) = a, Var(X) = 4a 2 /3 

43. fa) F x (Vy) - F x (-Vy) (c) E(X 2 ) = 1/3 

(b) l/2Vy, 0 <y <1 (d) E(Y) = 1/3 

45. (a) Use integragao por partes 

(b) idem 

(c) r(i) =1, r(i/2) =V7 
49. E(Y) =1 

51. (a) exponencial 

53. E (X) = oo, use y = 1 + x 2 . 

56. Q(0,1) =4,88, Qj =7,32, Q 2 = 10, Q 3 = 12,68, Q (0,9) 
= 15,12 

58. (a) 0,051 (b) 0,101 


O grafico da f.d.a de X, F(x), e 

1.0 - , - 

0.8 - •-° 

x 0.6 - 

LL •-o 

0.4 - 

0.2 - .-o 

0.0 - I 8-° _ | _ r 

0 2 4 6 

x 


29. duasflores 


31. (a) 0,656 
(b) 0,292 

(c) 0,049 

(d) 0,996 

32. 0,9418 


33. fa) 0,2013 
(b) 0,6242 

(c) 0,3222 

34. (a) 0,1428 

fc) 2 


fb) dois navios 
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Capitulo 8 


1. (a)Q. = {Cl. C 6, R 1 . R6}, C = cara, 

R = coroa; (c) independentes; (d) 1/2, 1, 1/2, 0, 2/3, 

1/2 


\ X 

Y X^ 

-1 

0 

1 

p(y) 

-1 

1/12 

0 

1/12 

1/6 

0 

1/6 

0 

1/6 

1/3 

1 

1/4 

0 

1/4 

1/2 

p(x) 

1/2 

0 

1/2 

1 


(b) medias: 0; 1/3; variancias: 1; 5/9 


X IY =0 

-1 

1 

■a 

X 

-< 

II 

o 

0,5 

0,5 


Y | X = 1 

-i 

0 

1 

p(y|x =i) 

1/6 

2/6 

3/6 


5. (a) 1/3,14/9 (b) a =±10, b = 30 


\ X 
Y^X 

1 

2 

3 

4 

p(y) 

1 

1/16 

2/1 6 

2/1 6 

2/16 

7/1 6 

2 

0 

1/1 6 

2/1 6 

2/16 

5/1 6 

3 

0 

0 

1/16 

2/16 

3/1 6 

4 

0 

0 

0 

1/16 

1/16 

P(x) 

1/16 

3/1 6 

5/16 

7/16 

1 


21. Densidades coincidem com as marginais do pro- 
blema 19(a), pois X e Y sao independentes. 

23. f x (x) =e _x , x > 0; f Y (y) = 3 • e 3y , y > 0; logo, indepen¬ 
dentes; densidades condicionais iguais as marginais. 

25. E (Y |x) = (6x + 16)/(3x + 6), 0 « y « 4; 

E (Y | x = 3) =34/15; 

E(X |y) = (6x + 16)/(3y + 6), 0 « x « 4; 

E(X |y =2) =7/3 

27. f z (z) = (-2z 3 + 12z - 8)/3,1 <z <2 

29. f z (z) =2/(2 +z) 2 , z >0 

30. E(Z) =0,Var(Z) =1/2 


X 

1 

2 

3 

P(x) 

0,2 

0,4 

0,4 

y 

0 

1 

2 

p(y) 

0,4 

0,2 

0,4 

x + y 

1 

2 

3 4 

P(x + y) 

0,2 

0,2 

0,4 0,2 

x- y 

0 

1 

2 

p(x - y) 

0,2 

0,4 

0,4 

x - y - 1 

-1 

0 

1 

p(x- y- 1) 

0,2 

0,4 

0,4 


(fa) medias: 3,125; 1,875; 5; variancias: 0,86; 0,86; 
2,5 

9. (a) 3,85; 4,94 (fa) 3,78; 5,43 

11. Cov(X, Y) = 0,12, p(X, Y) = 0,197 


34. 35% 

36. (a) 0,30; 1/6; dependentes (fa) p =-0,512 

39. p(AX +B,CY +D) = p(AX, CY) = 

= (AC )/(|AC |)p(X, Y) =p(X, Y),seA >0,C >0 


1 3. E(XY) =0 = E(X)E(Y), mas X e Y sao dependentes, 
pois P (X =1,Y =1) =0 # 1/4 x 1/4 

15. (a) independentes, covariancia nula 
(fa) medias: 1, 1/2, 3/2; 
variancias: 1/2, 1/4, 3/4 


41. 6,17 

43. (fa) E(aX + bY) = ap 1 + bp 2 ;Var(aX +bY) = 
=a 2 cr 2 + b 2 cr 2 2 

45. e~*e~ y =f(x, y), Vx, y >0 


16. 0,65 


47. E(X) = p, Var(X ) = cr 2 /n 


19. (a) f x (x) = e x , x > 0; f Y (y) = e y , y > 0 
(fa) (1 - e _1 )(e* 1 - r 2 ) 

(c) p =0, pois X e Y sao independentes. 
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Capftulo 9 


1. 18 mod 5 = 3, 360 mod 100 = 60. 

3. u,: 0,13; 0,65; 0,25; 0,25; ...; h = 3 

4. u,: 0,19; 0,47; 0,11; 0,43; ...; 0,87; h = 20. 

6. (Xj.x 5 ) = (1, 3, 2, 2, 2), se u,: 0,11; 0,82; 0,43; 

0,56; 0,60 

7. (Xj.x 10 ) = (5, 3, 4, 4, 4, 5, 4, 6, 5, 5), se U' 0,57; 

0,19; 0,38; 0,33; 0,31; 0,54; 0,38; 0,79; 0,54; 0,55. 

8. Geramos o numero aleatorio U e X = (u - l) lfl ; 

x =-0,793. 

9. Para u,: 0,419; 0,885; 0,111; 0,330; 0,036; 0,415; 0,188; 
0,061; 0,127; 0,791; obtemos 0,1, 0, 0, 0, 0, 0, 0, 0,1. 

1 0. Considere dez experimentos de Bernoulli, E„ ..., E 10 ; 
erm cada urn deles, seja X ~ Ber(0,2). Por exermplo, 
se erm E ; geramos os NA l^: 0,11; 0,82; 0,00; 0,43; 
0,56; 0,60; 0,72; 0,42; 0,08; 0,53; entao os valores 
de Xj respectivos serao 0, 1, 0, 0, 0, 0, 0, 0, 0, 0 e 
portanto a v.a. binomial e Y = 0 + 1+ 0+ ... + 0=1, e 
assim por diante. 

1 1. Usando os do problema 9, obteremos: TV: 0,435; 
0,061; 1,099; 0,554; 1,662; 0,440; 0,836; 1,398; 1,032; 
0,117. 


12. (a) Usando os NA do problema 10 obtemos: 

Xj = 0,332; x 2 = 0,906; x 3 = 0,000; x 4 = 0,656; 
x 5 = 0,748; x 6 = 0,775; x 7 = 0,849; x 8 = 0,648; 
x 9 = 0,283; x 10 = 0,728. 

(b) Suponha Uj =0,94; entao Zj = O'(Uj) =-1,56 e 
portanto Xj = 10 + 2z t = 13, 12, etc. 

(c) Para Uj = 0,94, temos que tj = 1,711 etc. 

1 4. Com os valores gerados no problema 12(b), calcule 
w = Z 2 + z 2 +z 3 2 etc. 

1 7. Para U 3 = 0,6 e U 2 = 0,09, calcule z 1 e z 2 dadas no 
metodo de Box-Mijller, obtendo z 3 =0,562 e z 2 = 0,357. 
Repita. 

19. [1] Suponha gerado Uj = 0,6; [2] r = 3/7 = 0,43, 
j = 0, pr = (0,7) 5 = 0,17, F = 0,17. [3] u 3 > F [4]pr = 
= (0,43)(5)(0,17) = 0,37, F = 0,17 + 0,37 = 0,54, j = 1; 
[5]u j = 0,6 <F , logo coloque X 3 = 1. Repita para U 2 , ..., 

U 5' 

26. Suponha os tres primeiros valores gerados da Exp 
(1/2) do problema 11. Entao o primeiro valor gerado 
de X ~ gama (3; 1/2) seria x 2 = 0,435 + 0,061 +1,099 = 
= 1,595. Continue. 


Capftulo 10 


(a) amostra nao-aleatoria; opiniao de operario esta 
relacionada com sua chegada 

3. (c) 0,375% 

(b) alturas sao amostra aleatoria 

4 . <7 2 

0 

1 

4 

7 

(c) amostra viesada 

P(& 2 ) 

7/25 

10/25 

6/25 

2/25 

(d) nao ha problemas se os supermercados forem, 
inicialmente, homogeneos quanto a venda de sa- 
bao em po 

7. (a) 0,68 

(b) 1,00 

(d) n = 4 


9. (a) 7,51% (b) 84,13% 


P 

0 

1/8 

2/8 

3/8 

4/8 

5/8 

6/8 

7/8 

1 

P(P) 

0,168 

0,336 

0,294 

0,147 

0,046 

0,009 

0,001 

0+ 

0+ 


(b) Y ~ N (1,6; 1,28) (c) razoavel, pois n pequeno e p A 1/2 (d) p = 1/2 


13. (a) 0,5 


(b) zero 
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14. (o) fj = 12, Md = 12, a 2 =10,8 


X 

6 

7 

9 

10,5 

12 

13,5 

15 

16,5 

18 

p(x) 

0,01 

0,04 

0,12 

0,20 

0,26 

0,20 

0,12 

0,04 

0,01 


distribuigao da mediana e igual a distribuigao de x. 

(cj E (X) = E(md) =12 (d) Var(x ) =Var(md) =5,4; qualquer uma 


z 

-2,59 

-1,94 

-1,29 

-0,65 

0 

0,65 

1,29 

1,94 

2,59 

p(z) 

0,01 

0,04 

0,12 

0,20 

0,26 

0,20 

0,12 

0,04 

0,01 


(fj E(Z) = 0, Var(Z) = 1 


(g) s 2 

0,0 

4,5 

18,0 

40,5 

72,0 


P(S 2 ) 

0,26 

0,40 

0,24 

0,08 

0,02 


(h) E (S 2 ) = 10,8, Var(S 2 ) 

= 204,12 





(/) t 

-3 

-1 

-0,3 

0 

0,3 

1 

3 

P(t) 

0,04 

0,24 

0,04 

0,10 

0,04 

0,24 

0,04 


Note que X p(t) < 1, pois S = 0, com probabilidade 0,26 e, nesses casos, nao podemos definir t. 
(j) Eft) = 0, Var(t) = 1,2 ( k ) P(|t|< 2) = 0,76, P(|t|< 4,3) = 0,74. 


17. n = 1.692 

1 9. Note que p(l - p) 1/4, logo n ^ n„. 
21. (a) 0,02275 

(b) n = 20, probabilidade = 0,0216 

(c) n = 1, probabilidade = 0,31 


32. (a) Pelo TLC, X ~ N (ju v cr 2 /n), Y ~ N (/u 2 , cr|/m) 
(b) E(D) =n 1 - n 2 , VarfD) = <r 2 /n + cT 2 2 /m 
(d) D ~ N n x - iu 2 ] cy 2 /n + <7 2 /m 

34. 0,356 

35. p 2 - p 2 ~ NfPj - p 2 ; Pjfl - Pj)/n + p 2 (l - p 2 )/m) 


23. (a) 400/n (d) d = 5,16 

(b) 0,617 (e) n = 1.537 

(c) 0,317 

25. (a) 0,2644 (b) 0,16 


39. f H (m) = nm n ~ VS", Osmsfi 

41. X 0 = 0, X 2 = 3, Si = 0, X“ = 4, S 2 2 = 2, 

X, = 3,333, S 3 2 = 2,347, X 4 = 3,998, S, 2 = 3,333, 
X 5 = 4, S 2 = 2,510. 


27. 0,06% 

29. (a) max. =72,28 (c) max. =72, min. =52 

(b) max. =48, min. =52 (d) 0,954 


42. E(f) = N E (X ) = N n = N(T/N) =T, 
Varff) =N 2 Var(X ) =N 2 (a 2 /n) 

43. Substitua S 2 em [3] por S 2 =X n (l - x n ). 


Capftulo 11 


P 

0,0 

0,2 

0,4 

0,6 

0,8 

1,0 

P(P) 

0,32768 

0,4096 

0,2048 

0,0512 

0,0064 

0,00032 


E(p) =0,2, Var(p) = 0,032. 

3. E(p 2 ) =E(p 2 ) = p, Var(Pj) = p(l - p)/n, Var(p 2 ) = p(l 
- P) 

4. pj consistente, p 2 nao-consistente 

6. (a) S(n) = 5ju 2 - 76^ + 390 
(b) ft = 7,6 


8- = 7- 4o = E(x t - x)(y t - y))/(X(x t - x) 2 ) 

10. L(p) = p 3 (l - p) 2 ; L (1/5) =0,0512, L (2/5) = 0,02304, 
L (3/5) = 0,03456, L (4/5) = 0,02048 

13. A mv = y 


12. P HV = x 
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14. r = 0,95 : ] 167,06; 172,94[ 
y = 0,85 : ]161,81; 168,19[ 
y = 0,70 : ]177,92; 182,08[ 

16. faj n = 385 (fa) n = 666 

18. I C(p; 0,90) = ]0,67; 0,73[; conservador: ]0,667; 0,733[ 

20. (a) n = 3933 (b) ]0,535; 0,566[ 

21 . (a) ]0,280; 0,386[ (fa) n = 2133 ou n = 2401 

23. (a) ] 148,37; 151,63[ (fa) n = 100 

25. x = 400; 1C para salario medio: ]379,53; 420,47[ 

27. (a) ]0,553; 0,647[ 

(fa) 2,7% 

(c) A amostra seria impraticavel: n = 3.689.473 
29. ]0,471; 0,569[ 


30. 7 = 0,64 

34. P{|k/n - p| & e} Var(k/n)/e 2 =p(l - p)/ne 2 . 

36. = X, 6^ v = ct 2 = S(X, - X ) 2 /n. 

38. (a) V H (0) =-0l( n +1) - 0, n -> «> 

(fa) EQM (T 2 ) = Var(T 2 ) = 0 2 /n(n + 2) 

(c) T 2 consistente 

41 . (a) ]4,941; 5,247[, amplitude = 0,306 
(fa) ]4,944; 5,244[, amplitude L 2 = 0,300 
(c) igual a (fa), amplitude L 3 = 0,300. 

Como n = 1.000, intervalos de (fa) e (c) sao iguais e 

L 2 = L 3 < Li- 

43. ]10,19; 10,41[ 

45. = X ou A m = a 2 . 


Capftulo 12 


2. (a) a = 9,18% (c) RC = {x : x s 1171,43} 

(fa) p = 6,68% 

4. a = 0,125, p = 0,7037 

5. (a) H 0 : ^ = 200, H 2 : n =210 

(fa) RC = {x : x & 205}; a = p = 0,106 

7. H 0 : At =60, H 2 : At <60; RC = {x : x < 49,03}; nao 
rejeitaria H 0 : nao ha evidencias de melhoria. 

9. H 0 : At & 23, H j: At < 23; RC =(-«,-1, 28], z obs = l,3, 
nao rejeitamos H 0 . 

1 0. a = 0,11; logo, nao rejeitamos H 0 : p =0,5. 

1 3. Como a =0,010, rejeitamos H 0 : p =1/4 e o programa 
deve ser modificado. 

16. a=0,345. 

1 7. a =3,6%; logo, a tecnica e melhorque a anterior. 

1 9. RC = {X 2 : X 2 =s 14,85 ou X 2 & 32}; X 2 0bs = 30,67; 
logo, a variancia nao mudou. 

21. (a) t = 1,833 
(fa) 0,711 
(c) 0,422 


22. a « 0, donde rejeitamos H 0 : At = 100, x = 85 min. 

24. (a) 1 C(ai; 0,95) = ]36,04; 47,03[ 

(b) (X - JU ) Vn/S ~ t(n - 1). 

26. RC = {x : X 26,3 ou X ^ 33,7}; x = 50,4; rejeita- 
mos H 0 

1C = (At; 0,95) =]46,7; 54,1[ 

27. z obs = 2,22; logo, rejeitamos H 0 : At = 11. 

30. (a) n = 35 

(fa) RC = {x : x & 205,6} 

32. t obs = 4,75; logo, rejeitamos H 0 : At =7; 

1C = ]8,99; 12,611 

34. (a) n = 271 
(fa) ]0,35; 0,45[. 

36. X 2 0bs = 19,2; logo, rejeitamos H 0 : ct 2 = 25. 

38. (a) a = 0,055 

(fa) bilateral = 0,11 

39. (a) a = 0,633 
(fa) bilateral > 1 
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Capftulo 13 


1. (a) a = 4,77 (b) b = 0,95 

3. Aceitamos H 0 : a 2 = <7 2 ; logo, as duas fabricas sao 
igualmente homogeneas. 

5. Aceitamos H 0 : a 2 = <7 2 e rejeitamos H 0 : /ij =fi 2 , logo, 
a populagao de homens e mulheres tern idades medias 
diferentes. Supomos populagoes normais. 

7. Aceitamos H 0 : a 2 = g\ e rejeitamos H 0 : (a A = pi B ; 
t obs = -2,133; logo, os dois tratamentos sao diferentes; 
B e mais eficaz. 

9. Aceitamos H 0 : <r 2 = cr 2 e H 0 : p 2 = p 2 ; t obs = 0,63 

10. W s =87, z obs =-1,36; aceitamos H 0 : p c =p T ; a = 0,09 
(unilateral) 

12. (a) 0,8170; 0,8051 (c) 0,9996; 0,9924 

(b) 0,18; 0,16 

15. a =0,5 

1 7. V obs = 2,37; logo, rejeitamos H 0 . 

1 8. v obs = 2,03; logo, rejeitamos H 0 . 

19. Supondo normalidade, t bbs = -0,83; aceitamos 
Ho: /u D = 0; a = 0,42. Usando Wilcoxon, z obs = -0,83, 
a = 0,41. 

25. Nao rejeitamos H o: jU D = jU N , t obs = 0,65; a produgao 
diurna e mais homogenea, mas a produtividade me¬ 
dia e a mesma. 


28. (o)IC(iu B - p A ; 0,95) =]0,06; 1,94[ 

(b) amostras de duas normais independentes, com 
variancias desiguais desconhecidas. 

30. (a) Nao rejeitamos H 0 : p = 7,6 e H 0 : p = 6,5; logo, 
as amostras servem para justificar as afirmagoes 
dos dois grupos. 

(b) Aceitamos H 0 : = p 2 , t bbs = 1,33; logo, os salaries 

medios dos dois grupos sao iguais. 

32. H o: Pd = 0, H i : p D < 0; t obs = -2,09, v = 4 g.I., logo, 
aceitamos H 0 ; nao ha evidencias de que a droga 
reduza a pressao; a variabilidade e muito grande. 

33. t obs = -2,42, v = 132 g.l. (usamos a normal!); rejeita¬ 
mos H 0 : p A = Pb- 

35. (a) IC (p A - Pb) 0,90) = ]0,433; 0,567[; como o zero 
nao pertence ao 1C, rejeitamos a hipotese de igual- 
dade de opinioes nas duas cidades. 

(b) 1C = 10,466; 0,534[ 

37. (a) t obs = -2,12, aceitamos H 0 : p A = Pb, « = 0,06 
(b) W s = 58, z obs = -1,66, aceitamos H 0 ; a = 0,05 

39. (a) t obs = 1,36, aceitamos H 0 : Mh = Me versus 
Hj: p N >ju c , a > 10 % 

(b) W s = 121, z obs = 1,22, aceitamos H 0 , a = 11% 

41. P(W S & 35) = P(W s s 33 + 2) = P(W S =s 33 - 2) = 
= P(W S « 31) 

43. t obs = 7,813, a ~ 0, 1C (/t D ; 0,95) = ]0,829; 1,423[ 


Capftulo 14 


1 . Xl bs = 8,96; logo, nao rejeitamos H 0 , para o nivel a = 0,05. 

3. Xl bs =0,563; o valor tabelado, com 2 g.l., para o nivel 
a = 0,01 e 11,34; logo, os dados estao de acordo 
com o modelo. 

5. *L = 8 ,17; logo, o dado e balanceado. 

6. -^obs = 6,95; as duas populates sao homogeneas, 
mesmo com a = 0,01; a = 0,078. 

8. As duas drogas sao igualmente eficazes: qui-quadra- 
do observado e 1,34. 

1 0. ^ bbs = 19,67; logo, a opiniao depende do local. 

12. X 2 0bs = 33,63; portanto, a tendencia de o aluno pros- 
seguir os estudos depende da classe social. 

1 3. Z bbs = 4,04, e para o nivel a = 0,05 rejeitamos a hipotese 
de que homens e mulheres tern a mesma fidelidade. 


1 5. T„ bs = 2,37 e rejeitamos H 0 : p = 0; IC (p; 0,95) = 
= ]0,04; 0,873[. 

1 7. Xl bs = 51,4; logo, o tipo de atividade esta relaciona- 
do com o tipo de propriedade de embarcaqoes. 

1 9. £ bbs =101,75 ea«0; logo, a preferencia pelos sexos 
nao e a mesma. 

21. r =0,87, T obs = 4,24; logo, rejeitamos H p = 0; o inter¬ 
val de confianga para p, com coeficiente de contan¬ 
go 0,95, e 10,414; 0,975[. 

23. r = 0,41; 4 0 = 0,4356; a regiao crftica e RC = 
= {i; : 4 < 0,071}, no nivel a = 0,05. Logo, a corre- 
lagao entre os salarios e menor que 0,6. 

24. H 0 : p ( X, Y) =0; H' : p(X, Y) = 0. Os valores 
amostrais sao r (X, Y ) = 0,949 e r( X, Y) = 0,707. 
Portanto, rejeitamos as duas hipoteses. 

28. P(X b = 5, X 2 = 2, X 3 = 3) = 0,064. 
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Capftulo 15 


2. Exemplo 15.2: fi = 3,16; a w = 0,22; = -0,93; 

= 0,50 

Exemplo 15.3: fi = 10,70; a 2 = 1,63; a 2 = -2,67; 
a 3 = 1,03 

3. IC(/i; 0,95) = ]77,9; 89,8[; IC(ct 2 ; 0,95) = ]100,1; 356,5[. 

4. F obs = 2,197; p-valor = 0,15; o tipo de escola nao 
tem influencia. 

5. F obs = 6,18; p-valor = 0,02; o periodo influencia. 

6. F obs = 92,2; p-valor ^ 0,001; ha diferenqa de rendi- 
mentos entre as duas categorias. 

8. Nao, pois F obs = 1,038 e p-valor = 0,37. 

9. (a) Sim, pois F obs = 487,23 e o valor tabelado de 

F (2,77), com a = 0,05, e 3,11. 

(b) 8,43 ± 0,36 

1 0. Nao ha evidencias, pois F obs = 3,90 e o valortabelado 
de F (1,8), com a = 0,05, e 5,32. 


1 1 . Existe evidencia de efeitos distintos, pois F obs = 29,79 
e o p-valor 0,001. 

Bonferroni sugere p, = fl lt >ju m = p( lv . 

1 2. Sim, F obs = 16,47, p-valor < 0,001. Bonferroni indica 
Me <M 0 =M a = M e 

13. Ha evidencias de que as medias sao diferentes, pois 
F 0 bs = e P" va l° r ~ 0,008. 

Bonferroni sugere /u 1 = /J 2 < n r 

1 6. Rejeitamos a hipotese (F obs = 59,0; o valor tabelado = 
= 3,11). Por Bonferroni, terlamos /t H </i E <p B . 

1 7. Nao deve ser um unico autor (F obs = 6,71, valortabe¬ 
lado = 3,03). Possibilidades sugeridas por Bonferroni: 
/t 1 =p 3 </t 4 ; ^=p 2 =^ 3 ;/t 2 =p 4 . 

22. M/C = 2,01, p-valor = 0,367; os grupos sao homo- 
cedasticos. 

25. IP(Y 40 ; 0,95) = ]102,77; 131,731; IC(// 40 ; 0,95) = 
] 110,77; 123,731 


Capftulo 16 


1 . (a) l, = 101,50 - 0,55x i 

(b) Sim, para o indivfduo 19. 

2. (a) % = 6,87 - O^ 

3. (b) 9, = 50,46 - 0,38x, (d) 132,4° 

5. (a) S 2 = 100; S l = 88,75 (c) R 2 = 18,9% 

(b) Nao (p-valor =8%) 

6. (b) 9, =0,662 +0,539x i 

(d) Sim; Se = 1,023 eS 2 =22,013. 

(e) Sim, p-valor = 0,00%. 

10. (a) ]-1,18; 0,08[ 

(b) ]82,21; 120,79[ 

(c) F obs =3,41, p-valor =0,08; logo, nao rejeitamos 
13 = 0. 

16. (a) ]82,84; 100,32[ 

(b) ]80,59; 89,41[ 

(c) ]29,90; 93,10[ 

1 7. 16,832 ±0,876 


18. (b) 9| = 32,12 - 2,52x i 

(d) encontra-se sobre a reta 

(e) ]16,95; 22,09[ 

22. (a) % = 323,62 + 131,72x |; F obs = 13,68, valor tabe¬ 
lado F c = 3,07, rejeito H 0 : [3=0 

(c) 982,2 ± 147,2 

(d) t obs = 0,16, t c = 1,753. Nao ha evidencias para re- 
jeitar H 0 . 

25. y =0,159 + l,228x ; t bbs = 4,85, t c =2,101. Rejeita-se H 0 . 
28. (b)y = 1,312 + l,958x; y =25,710- l,126z. 

(c) maior p-valor 

(d) 16,98 ± 1,89 

35. IC(a*; 0,95) =]5,03; 5,51[, 1C (/?; 0,95) =]0,24; 0,32[ 

36. IC(a; 0,95) =1153,40; 247,541 

37. fa) IC(p(28); 0,95) =1102,98; 108,431 
(b) I P(Y(28); 0,95) =193,64; 117,761 

39. (a) y = 10 + 12x (c) 106,97 
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